October 05, 2021

Что произошло с фейсбуком Пролистал большую статью от blog.cloudflare.com/october-2021-facebook-outage/ клаудфлер про сегодняшнее падение фейсбука, решил написать свою, сильно более простую. Сегодня приблизительно в 19:45 по Москве оглушительно рухнул Фейсбук и почти все его внешние и внутренние сервисы. Лежал Facebook, Messenger, Instagram, WhatsApp, лежали корпоративные и бизнес-сервисы фейсбука, не отвечали ни сайты ни мобильные приложения.

Что произошло: судя по всему кто-то из сетевых администраторов внес изменения в конфигурацию сети фейсбука, причем так, что большая часть этой сети перестала существовать. Интернет, который многие считают единой сетью на самом деле состоит из большого количества более мелких сетей, по сути это сетка сеток. Чтобы информация из одной подсети попадала в другую, была построена система обмена информацией о конфигурации и расположении узлов в подсетях, маршрутизаторы обмениваются друг с другом информацией о расположении подведомственных им сетей по протоколу BGP.

Так вот, одна из таких подсетей анонсировала всем внутри и снаружи что часть сети фейсбука теперь находится не у нее. Так получилось, что именно в этой подсети жили NS-сервера, отвечающие за домены, принадлежащие компании, а значит начиная с какого-то момента все, кто пытался узнать на каком IP-адресе находится facebook.com стали получать пустой ответ. Последствия предсказуемы: не работает фейсбук и все его сервисы у пользователей, внешних и внутренних.

Почему так долго: вместе с тем сотрудники фейсбука оказались в незавидном положении - недоступны все внутренние ресурсы компании, включая мессенджеры и корпоративные адресные книги. Нельзя зайти в офис (часть офисов пускали только по беджикам, которые привязаны к интернет-авторизации), потеряны почти любые привычные способы коммуникации. В добавок ко всему большую часть проблем можно было решить только при физическом доступе к серверам, который существенно осложнен привычной расслабленностью удаленной работы. Первые признаки восстановления систем можно было заметить уже после 12 ночи, т.е. через 3 часа глухого молчания.

При этом крепко досталось всему интернету. Лежали почти все крупные соцсети, которым внезапно достался трафик фейсбука - люди не найдя привычной инсты и вотсапа пошли искать спасения в твиттере и телеграмме. Получившие новый трафик поначалу радовались, но потом начали стонать под полученной неожиданно нагрузкой. Сильно пострадали все публичные DNS сервера - мобильные клиенты facebook и все сайты, где была авторизация через facebook или кнопка like безостановочно DDoSили свои днс запросами к несуществующему фейсбуку. Трафик некоторых мобильных приложений вырос в 30-50 раз. Впечатляет?

Будет ли такое повторяться? Будет. Потому что современный интернет все еще базируется на принципах, которые были выработаны 30, а иногда и больше лет назад. Никто тогда не думал о глобальной мировой сети, за прошедшие годы человечество построило интернет таким, какой он есть сейчас - централизованным, уязвимым, и потому не устойчивым. Последние выключения cloudflare, amazon, facebook и других крупных интернетообразующих сервисов показали, насколько хрупкая конструкция этот наш интернет. И кажется это то, что срочно пора исправить.

Understanding How Facebook Disappeared from the Internet

Today at 1651 UTC, we opened an internal incident entitled "Facebook DNS lookup returning SERVFAIL" because we were worried that something was wrong with our DNS resolver 1.1.1.1. But as we were about to post on our public status page we realized something else more serious was going on.