Проблеми в ключовия облачен център на Amazon предизвикаха верижни сривове в множество платформи, зависещи от интернет
Мащабен срив в Amazon Web Services (AWS) рано на 20 октомври причини сериозни смущения в десетки популярни платформи, приложения и игри – включително Snapchat, Zoom, Coinbase и Fortnite. Един от най-важните доставчици на облачна инфраструктура в света се бореше със сривове в обслужването в един от най-натоварените си центрове за данни.
AWS, облачното подразделение на Amazon на стойност 100 млрд. долара, стои в основата на огромна част от глобалната инфраструктура. То поддържа всичко – от стрийминг платформи и мобилни приложения до финансови услуги и системи за спешни случаи.
AWS съобщи за „повишени проценти грешки и забавяния“ малко след 3:11 ч. източно време. Засегнати бяха множество услуги в региона US-East-1 – център, който захранва голяма част от световния интернет.
Сривът се разпространи из основните потребителски и корпоративни платформи. Докладите в Downdetector показаха масови проблеми с достъпа до Amazon, Coinbase, Ring, Snapchat, Reddit, Slack, United Airlines, Zoom и множество мрежи за онлайн игри, включително Fortnite, Roblox, Pokémon Go и услугите на Epic Games.
„Тези проблеми засягат множество услуги, които зависят от AWS инфраструктурата“, заяви компанията. „Следим ситуацията.“
В 5:01 ч. източно време AWS съобщи, че е установила „потенциална основна причина“. Проблемът се корени в начина, по който една от ключовите системи за бази данни се свързва и комуникира. Amazon обясни, че причината е срив в достъпа до услугата DynamoDB в мрежата. Инженерите на компанията работеха по „множество паралелни решения за ускоряване на възстановяването“.
В 5:27 ч. източно време AWS заяви, че вижда „значителни признаци на възстановяване“. Повечето заявки за мрежов достъп „вече би трябвало да са успешни“. Компанията обеща нови актуализации по време на възстановяването.
В 6:35 ч. сутринта AWS потвърди, че „основният DNS проблем е напълно отстранен“. Въпреки това предупреди, че някои услуги все още обработват натрупания обем заявки.
Компанията съобщи, че заявките за пускане на системи в региона US-East-1 все още срещат повишени проценти грешки. Клиентите с проблеми получиха съвет да изчистят DNS кеша си.
„Продължаваме да работим за пълно възстановяване“, заяви AWS. Отбелязаха, че все още има ограничения при услуги като CloudTrail и Lambda.
Coinbase, най-голямата борса за криптовалути в САЩ, съобщи на потребителите в 3:46 ч. източно време, че много от тях не могат да достъпят услугите поради AWS срива.
„Всички средства са в безопасност“, заяви Coinbase. Екипите работеха за възстановяване на функционалността. В по-късна актуализация около 5:36 ч. източно време Coinbase съобщи, че вижда „ранни признаци на възстановяване“. Някои потребители вече могат да достъпят услугите на криптоплатформата.
Илон Мъск, чиято платформа X остана онлайн, коментира срива с кратко съобщение: „X работи.“
Сривът дойде само дни след отделен инцидент, който засегна YouTube на Alphabet. Той за кратко попречи на потребителите по света да гледат видеа в YouTube, YouTube TV и YouTube Music. В пика бяха регистрирани над 360 000 сигнала за проблеми само в САЩ, според Downdetector. Макар и несвързани, инцидентите показват крехкостта на платформите, които разчитат силно на централизирани облачни мрежи.
Регионът AWS US-East-1 в Северна Вирджиния е претърпявал високопрофилни срирове и преди. Това включва инцидент през 2021 г., който срина основни платформи в интернет.
При инцидента от декември 2021 г. претоварване на трафика в собствената мрежа на Amazon наруши начина, по който основните услуги комуникират помежду си. Това доведе до широко разпространени срирове. AWS по-късно заяви, че проблемът се влошил заради забавено откриване на грешката. Това наложи промени във вътрешните системи и инструментите за наблюдение.
Милиони бизнеси зависят от AWS. Дори кратки срирове могат да предизвикат мащабни оперативни последици.
AWS заяви, че продължава да следи възстановяването и ще предоставя нови актуализации.