بامداد دوشنبه هفته گذشته، میلیونها کاربر در اروپا، آفریقا و آسیا متوجه شدند که صدها برنامه و وبسایت پرکاربرد از دسترس خارج شدهاند. اپلیکیشنهایی مانند سیگنال، اسنپچت، فورتنایت، ردیت، کوینبیس، رینگ، آمازون الکسا و حتی سرویسهای اپل، به دلیل قطعی AWS برای ساعتها در دسترس نبودند.
شرکت آمازون اعلام کرد که علت اصلی این خاموشی، مشکل در اتصال شبکه در مرکز داده منطقه «US-EAST-1» در ویرجینیا بوده است. این نقص مربوط به سیستم «رزولوشن DNS» بود؛ همان سیستمی که نامهای دامنه قابلخواندن برای انسان را به آدرسهای IP قابلخواندن برای ماشین تبدیل میکند.
در پی رفع اختلال، آمازون اعلام کرد که تمامی سرویسها مجدداً فعال شدهاند، اما حدود هزار کسبوکار تحت تأثیر این حادثه احتمالاً با تاخیر، افزایش خطا یا نوسان در ارتباطات شبکه روبهرو میشوند.
تکرار تجربهای تلخ در تاریخ AWS
این نخستینبار نیست که AWS دچار قطعی در سطح جهانی میشود. پیش از این نیز در سالهای ۲۰۲۱ و ۲۰۲۳، خاموشی مشابهی در همین ناحیه جغرافیایی رخ داده بود؛ اتفاقی که در گذشته دسترسی کاربران به اپلیکیشنهای پرداخت و رزرو پرواز را برای چند ساعت مختل کرد.
اما آنچه این بار توجه تحلیلگران را جلب کرده، تشابه زمان اختلال با روند طولانیمدت تعدیل نیروهای آمازون است. از سال ۲۰۲۲ تاکنون بیش از ۲۷ هزار نفر از کارکنان این شرکت، از جمله تعداد قابلتوجهی از مهندسان ارشد، از مجموعه خارج شدهاند.
حذف تجربه؛ هزینه پنهان تعدیلها
کارشناسان منابع انسانی و فناوری بارها هشدار داده بودند که حذف ناگهانی نیروهای متخصص در ردههای بالا میتواند تبعات فنی سنگینی برای شرکت داشته باشد. این هشدار حالا با وقوع اختلال اخیر رنگ واقعیت به خود گرفته است.
به گفته «کوری کویین» (Corey Quinn)، اقتصاددان ارشد خدمات ابری در گروه «داکبیل» (The Duckbill Group)، آنچه از AWS رفته، تنها نیروی انسانی نیست بلکه دانش نهادی است که طی سالها درباره عملکرد پیچیده زیرساختهای این پلتفرم شکل گرفته بود. به تعبیر او، «مهندسانی که بارها تجربه مدیریت بحران در AWS را داشتند، دیگر در ساختمان نیستند.»
کویین معتقد است این کمبود تجربه در نحوه اطلاعرسانی و واکنش تیم AWS به حادثه اخیر هم مشهود بود. از نخستین گزارش اختلال تا تشخیص علت اصلی بیش از ۱۱۵ دقیقه فاصله افتاده است، در حالی که شرکت از سال ۲۰۲۰ وعده داده بود فرآیند هشداردهی و پاسخگویی را تسریع کند.
ریزش استعدادها در AWS
گزارشهای داخلی آمازون حاکی است در میان تمام سطوح شغلی، آمار «خروجهای پشیمانکننده» بین ۶۹ تا ۸۱ درصد بوده است؛ به این معنا که شرکت از رفتن بخش زیادی از نیروهای متخصص خود متأسف است.
در پایان سال ۲۰۲۳، یکی از مهندسان ارشد سابق به نام «جاستین گریسون» (Justin Garrison) در یادداشتی علنی هشدار داد که افزایش «رویدادهای گسترده» و کاهش تجربه در تیم فنی بهزودی منجر به قطعیهای بزرگ خواهد شد؛ پیشبینیای که اکنون تحقق یافته است.
بر اساس گزارش منابع نزدیک به شرکت، تا پایان سال ۲۰۲۵ قرار است حدود ۱۰ درصد دیگر از کارکنان AWS تعدیل شوند و ۲۵ درصد این کاهش شامل موقعیتهای ارشد و «پرینسیپال» خواهد بود. این در حالی است که مهندسان در این سطح معمولاً مسئول تصمیمهای کلیدی معماری و هدایت پروژههای حیاتی هستند.
پیامدهای جهانی برای کسبوکارها
قطعی اخیر بار دیگر نشان داد تا چه اندازه وابستگی به سرویسهای ابری، اقتصاد دیجیتال جهان را آسیبپذیر کرده است. هزاران کسبوکار کوچک و بزرگ در بخشهای بانکداری، خردهفروشی، سرگرمی و ارتباطات تنها با چند ساعت وقفه، زیانهای قابلتوجهی را تجربه کردند.
در فضای آنلاین، کاربران به طنز به سراغ ضربالمثل معروف جامعه فنی رفتند: «حتماً مشکل از DNS نیست… اما در نهایت، مشکل از DNS است!»
اگرچه AWS هنوز توضیح فنی کاملتری ارائه نکرده، کارشناسان معتقدند ترکیب ریزش نیروی متخصص، کاهش تجربه فنی و ساختار ارتباطی سنگین درون شرکت، باعث شده تا هر حادثه کوچک، به بحرانی جهانی تبدیل شود.