ВС Лаб медиацентр

Эксперт «ВС Лаб» раскрыл причины глобального падения сервисов Facebook

Компания Cloudflare, владеющая одним из самых популярных DNS-сервисов подтвердила, что сбой в работе сервисов Facebook возник из-за обновления в протоколе динамической маршрутизации соцсети (BGP), рассказал «Газете.Ru» директор департамента сбора, хранения и анализа данных компании «ВС Лаб» Иван Барчук.

«Прокотолы BGP фактически отвечают за маршрутизацию пакетов данных из любой точки мира в другую точку мира. Соответственно, выпадение BGP Facebook из общих цепочек достаточно быстро повлиял на глобальную маршрутизацию всего мирового интернета. Потому что маршрутизаторам из-за отсутствия сети Facebook пришлось искать обходные пути передачи пакетов, которые были дольше», — объясняет Иван Барчук.
Кроме того, по его словам, проблема коснулась системы определения доменных имен DNS. Браузер и мобильные приложения одного человека обращаются к доменным именам тысячи раз в сутки. Для уменьшения нагрузки на разных DNS-узлах используются механизмы кэширования, которые хранят IP-адреса популярных систем и не обращаются каждый раз к крупным DNS-сервисам.
«Однако в тот момент, когда все сервисы Facebook перестают отвечать, DNS-узлы понимают, что их кэш больше не актуален и начинают обращаться к главным DNS-сервисам, которые просто не рассчитаны на такую нагрузку», — рассказал эксперт.

Источник: Газета.ru


Также публикуем комментарии Ивана Барчука целиком.

04.10 23:54
Это комментарий по горячим следам о событиях, которые происходят в реальном времени. Времени проанализировать все источники и дождаться официальной информации не было. Поэтому какие-то из этих предположений могут быть не совсем корректными.

По достоверным данным в Facebook сегодня сломалась DNS-маршрутизация. DNS — международный формат хранения сопоставления доменного имени и ip-адреса ресурса. Например, для ресурса gazeta.ru ip-адресом является 81.19.72.3.
По пока непроверенным данным вероятной причиной стало обновление всего сетевого оборудования (динамическая маршрутизация BGP) во всей глобальной сети Facebook. Вероятно обновление произошло не совсем успешно и все сломалось. Важно понимать, что сеть и активы корпорации Facebook это уже давно также Instagram с Whatsapp, и что они точно так же пользуются тем же оборудованием.

Следующей проблемой стало то, что на DNS Facebook завязаны миллионы сторонних сервисов по всему миру, например, которые используют авторизацию через Facebook или показывают их рекламу. Могу предположить, что это дало дополнительную нагрузку сторонним сервисам: ведь запросы данных у технологического гиганта вместо привычной секунды стали «висеть» по несколько минут и возвращались ни с чем. Но больше проблем точно создали конечно сотни миллионов пользователей, которые срочно начали искать альтернативу вышедшим из строя соцсетям и мессенджеру.

Сами же сотрудники Facebook столкнулись с рядом других проблем. Во-первых, это нормально, что сотрудники технологических гигантов используют для внутрикорпоративных коммуникаций собственные продукты. Например, в Google — продукты Google, а сотрудники Вконтакте общаются только через VK Messenger. Поэтому сотрудникам Facebook, оказавшихся без рабочего Whatsapp и Facebook Messenger, это добавило новых проблем. К тому же, скорее всего это затронуло и полностью внутренние ресурсы компании, которые жили на поддоменах *.facebook.com (или аналогах) и так же зависели от DNS. Поэтому кроме мессенджеров инженеры, пытающиеся решить проблему, могли оказаться без корпоративной почты, баз знаний, технической документации и так далее. Не видел пока подтверждения информации, но вполне допускаю, что в некоторые офисы и центры обработки данных инженеры даже не могут попасть из-за проблем с системами контроля и управления доступом. То есть просто карточки для входа больше не открывают нужные двери, которые приходится ломать.

И главное. От инженеров я неоднократно слышал рассказы про то, как они дистанционно конфигурировали сервер и случайно ломали сетевую маршрутизацию этого сервера. После чего удаленно к нему невозможно было подключиться и приходилось физически к нему ехать. Здесь, вероятно, произошло то же самое. Только вместо одного сервера — тысячи в десятках стран мира. С дверями, которые приходится выламывать, без быстрого доступа к многотомной документации, с крайне усложненными коммуникациями.

Любой такой сбой выявляет множество проблем. И технологические гиганты, как мировые так и российские, обязательно сделают выводы из сложившейся ситуации. И проведут работы по устранению уязвимостей, чтобы через месяц или год не пройтись по тем же самым граблям. И заложить какие-то резервные способы коммуникаций, доступов и так далее. Так что повторения ситуации в таком же объеме и по той же причине вряд ли стоит ждать. Это, наверное, единственный позитивный момент.


05.10 02:11
Дополнение.
Компания Cloudflare, владеющая одним из самых популярных DNS-сервисов (1.1.1.1) подтвердила, что проблема возникла из-за обновления в BGP Facebook. Протоколы BGP фактически отвечают за маршрутизацию пакетов данных из любой точки мира в другую точку мира. Соответственно, выпадение BGP Facebook из общих цепочек достаточно быстро повлиял на глобальную маршрутизацию всего мирового интернета. Потому что маршрутизаторам из-за отсутствия сети Facebook пришлось искать обходные пути передачи пакетов, которые были дольше.

Следом пришла другая проблема. Система определения доменных имен (DNS) — также очень сложная распределенная система со сложным устройством. Браузер и мобильные приложения одного человека обращаются к доменным именам тысячи раз в сутки. Для уменьшения нагрузки на разных DNS-узлах используются механизмы кэширования, которые хранят ip-адреса популярных систем и обращаются к более крупным DNS-сервисам не при каждом запросе. Соответственно, в тот момент, когда все сервисы Facebook, Whatsapp, Instagram перестают отвечать, DNS-узлы понимают, что их кэш больше не актуален и начинают обращаться к главным DNS-сервисам. Которые просто не рассчитаны на такую нагрузку. Допустим в режиме нормальной работы интернета они обрабатывают условно миллион запросов в секунду (потому что большая часть запросов пользователей закэширована на других DNS-узлах). А после падения сервисов Facebook, на популярные DNS-сервисы нагрузка увеличивается в несколько раз. Потому что добавляется условно два-три миллиона запросов в секунду от пользователей, которые пытаются пользоваться Facebook, Instagram, Whatsapp по всему миру. Обновляют страницы, перезагружают приложения и так далее. Плюс, как было сказано выше также влияют сторонние сервисы, которые используют авторизацию или рекламу Facebook и также создают нагрузку.
Эти две проблемы создают дополнительную нагрузку на весь мировой интернет, и под удар попадают вообще все сервисы.
СМИ о нас