November 2, 2025

Единственная точка отказа привела к сбою в работе Amazon, затронувшему миллионы

1 min read
Единственная точка отказа привела к сбою в работе Amazon, затронувшему миллионы



Единственная точка отказа привела к сбою в работе Amazon, затронувшему миллионы

В свою очередь, задержка в распространении состояния сети отразилась на балансировщике сетевой нагрузки, от которого зависят стабильность сервисов AWS. В результате у клиентов AWS возникали ошибки подключения из региона US- East-1. Затронутые сетевые функции AWS включали создание и изменение кластеров Redshift, вызовы Lambda и запуск задач Fargate, таких как управляемые рабочие процессы для Apache Airflow, операции жизненного цикла Outposts и Центр поддержки AWS.

На данный момент Amazon отключил DynamoDB DNS Planner и DNS Enactor по всему миру, пока работает над исправлением состояния гонки и добавлением средств защиты для предотвращения применения неправильных планов DNS. Инженеры также вносят изменения в EC2 и его балансировщик сетевой нагрузки.

Поучительная история

Ookla выделила способствующий фактор, не упомянутый Amazon: концентрация клиентов, которые направляют свои соединения через конечную точку US- East-1, и невозможность маршрутизации по всему региону. Окла объяснил:

Затронутый US‑EAST‑1 — старейший и наиболее часто используемый хаб AWS. Региональная концентрация означает, что даже глобальные приложения часто привязывают туда потоки идентификационных данных, состояния или метаданных. Когда региональная зависимость терпит неудачу, как это произошло в этом случае, последствия распространяются по всему миру, поскольку в какой-то момент многие «глобальные» стеки проходят через Вирджинию.

Современные приложения объединяют управляемые сервисы, такие как хранилище, очереди и бессерверные функции. Если DNS не может надежно разрешить критически важную конечную точку (например, задействованный здесь API DynamoDB), ошибки каскадно передаются через вышестоящие API и вызывают видимые сбои в приложениях, которые пользователи не связывают с AWS. Именно это Downdetector зафиксировал в Snapchat, Roblox, Signal, Ring, HMRC и других.

Это событие служит предостережением для всех облачных сервисов: более важным, чем предотвращение состояний гонки и подобных ошибок, является устранение отдельных точек сбоя в проектировании сети.

«Путь вперед», — сказал Оокла, — «это не нулевой отказ, а сдерживаемый отказ, достигаемый за счет многорегионального проектирования, разнообразия зависимостей и дисциплинированной готовности к инцидентам, при нормативном надзоре, который движется к рассмотрению облака как системного компонента национальной и экономической устойчивости».