Cloudflare опубликовала детальный разбор инцидента, который 18 ноября вызвал один из крупнейших сбоев в глобальной сети за последние шесть лет.
Сбой затронул работу глобальных платформ: ChatGPT, Spotify, X (Twitter), League of Legends, Roblox, PayPal, Canva, ряд медиа.
В компании назвали этот сбой «самым серьезным с 2019 года».
Что произошло?
Первопричиной стала ошибка в работе системы Bot Management — ключевого инструмента, который анализирует трафик и отсекает вредоносные запросы. Из-за некорректного изменения в настройках запроса в базе данных ClickHouse система начала генерировать дубликаты данных. Конфигурационный файл для модели машинного обучения увеличился более чем вдвое и превысил допустимые лимиты памяти.
Это вызвало сбой в главной прокси-системе, которая маршрутизирует трафик. Клиенты, использовавшие показатели ботов в своих правилах, начали случайно блокировать легитимных пользователей — в то время как компании, которые этой функцией не пользовались, оставались онлайн.
Важно: в Cloudflare подчеркнули, что инцидент не был связан с DNS, кибератакой или новыми системами на основе генеративных технологий. Проблема возникла исключительно во внутренней логике обновления конфигураций Bot Management.
Как компания реагировала?
Сначала инженеры предположили, что по сети проходит масштабная DDoS-атака. Лишь после дальнейшей диагностики удалось выявить коренную причину и остановить распространение проблемного конфигурационного файла. После отката к предыдущей версии сеть постепенно восстановила работу — основной трафик нормализовался примерно в 14:30 UTC, а полное восстановление произошло в 17:06.
Что обещает Cloudflare?
Компания анонсировала четыре системных изменения, чтобы избежать подобных случаев:
усилить проверку конфигурационных файлов по принципу обработки пользовательского ввода; />
расширить количество глобальных «kill switch» для критических функций;
исключить ситуации, когда core dump или отчеты об ошибках могут перегружать систему;
полностью пересмотреть режимы отказа в ключевых прокси-модулях.
Cloudflare извинилась перед клиентами, подчеркнув, что любой простой в ее инфраструктуре имеет глобальные последствия, ведь через ее сеть проходит около 20% всего интернета.