December 13, 2021

Большой пост амазона о том, что же вызвало такое продолжительное падение их важнейшей зоны во вторник. Если коротко: один из внутренних сервисов был очень нагружен и решил увеличить количество компьютеров, на которых он работает. Масштабирование на новое железо вызвало огромную нагрузку на сеть (видимо образы виртуальных машин были большими), часть сервисов перестали резолвиться и отметились на мониторинге как “не доступные”. Операторы датацентров решили что такого не бывает и это ошибка в DNS, что в свою очередь привело к потере связанности и почти полной остановке работы нескольких внутренних датацентров Амазона.

Очень много уважения к Амазону за готовность так подробно рассказывать о своих проблемах. И небольшой вздох облегчения, потому что и у гигантов бывают детские ошибки aws.amazon.com/ru/message/12721/

Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region