اختلال گسترده AWS پس از ترک مهندسان ارشد؛ منتقدان سیاست‌های تعدیل آمازون را مقصر می‌دانند

اختلال سراسری اخیر در سرویس «آمازون وب سرویسز» (Amazon Web Services یا AWS) بار دیگر پرسش‌های جدی درباره تأثیر تعدیل گسترده نیروهای متخصص از سال ۲۰۲۲ بر پایداری زیرساخت‌های آمازون را زنده کرده است. 

بامداد دوشنبه هفته گذشته، میلیون‌ها کاربر در اروپا، آفریقا و آسیا متوجه شدند که صدها برنامه و وب‌سایت پرکاربرد از دسترس خارج شده‌اند. اپلیکیشن‌هایی مانند سیگنال، اسنپ‌چت، فورتنایت، ردیت، کوین‌بیس، رینگ، آمازون الکسا و حتی سرویس‌های اپل، به دلیل قطعی AWS برای ساعت‌ها در دسترس نبودند.

شرکت آمازون اعلام کرد که علت اصلی این خاموشی، مشکل در اتصال شبکه در مرکز داده منطقه «US-EAST-1» در ویرجینیا بوده است. این نقص مربوط به سیستم «رزولوشن DNS» بود؛ همان سیستمی که نام‌های دامنه قابل‌خواندن برای انسان را به آدرس‌های IP قابل‌خواندن برای ماشین تبدیل می‌کند.

در پی رفع اختلال، آمازون اعلام کرد که تمامی سرویس‌ها مجدداً فعال شده‌اند، اما حدود هزار کسب‌وکار تحت تأثیر این حادثه احتمالاً با تاخیر، افزایش خطا یا نوسان در ارتباطات شبکه روبه‌رو می‌شوند.

تکرار تجربه‌ای تلخ در تاریخ AWS 

این نخستین‌بار نیست که AWS دچار قطعی در سطح جهانی می‌شود. پیش از این نیز در سال‌های ۲۰۲۱ و ۲۰۲۳، خاموشی مشابهی در همین ناحیه جغرافیایی رخ داده بود؛ اتفاقی که در گذشته دسترسی کاربران به اپلیکیشن‌های پرداخت و رزرو پرواز را برای چند ساعت مختل کرد.

اما آنچه این بار توجه تحلیلگران را جلب کرده، تشابه زمان اختلال با روند طولانی‌مدت تعدیل نیروهای آمازون است. از سال ۲۰۲۲ تاکنون بیش از ۲۷ هزار نفر از کارکنان این شرکت، از جمله تعداد قابل‌توجهی از مهندسان ارشد، از مجموعه خارج شده‌اند.

حذف تجربه؛ هزینه پنهان تعدیل‌ها 

کارشناسان منابع انسانی و فناوری بارها هشدار داده بودند که حذف ناگهانی نیروهای متخصص در رده‌های بالا می‌تواند تبعات فنی سنگینی برای شرکت داشته باشد. این هشدار حالا با وقوع اختلال اخیر رنگ واقعیت به خود گرفته است.

به گفته «کوری کویین» (Corey Quinn)، اقتصاددان ارشد خدمات ابری در گروه «داک‌بیل» (The Duckbill Group)، آنچه از AWS رفته، تنها نیروی انسانی نیست بلکه دانش نهادی است که طی سال‌ها درباره عملکرد پیچیده زیرساخت‌های این پلتفرم شکل گرفته بود. به تعبیر او، «مهندسانی که بارها تجربه مدیریت بحران در AWS را داشتند، دیگر در ساختمان نیستند.»

کویین معتقد است این کمبود تجربه در نحوه اطلاع‌رسانی و واکنش تیم AWS به حادثه اخیر هم مشهود بود. از نخستین گزارش اختلال تا تشخیص علت اصلی بیش از ۱۱۵ دقیقه فاصله افتاده است، در حالی که شرکت از سال ۲۰۲۰ وعده داده بود فرآیند هشدار‌دهی و پاسخگویی را تسریع کند.

ریزش استعدادها در AWS 

گزارش‌های داخلی آمازون حاکی است در میان تمام سطوح شغلی، آمار «خروج‌های پشیمان‌کننده» بین ۶۹ تا ۸۱ درصد بوده است؛ به این معنا که شرکت از رفتن بخش زیادی از نیروهای متخصص خود متأسف است.

در پایان سال ۲۰۲۳، یکی از مهندسان ارشد سابق به نام «جاستین گریسون» (Justin Garrison) در یادداشتی علنی هشدار داد که افزایش «رویدادهای گسترده» و کاهش تجربه در تیم فنی به‌زودی منجر به قطعی‌های بزرگ خواهد شد؛ پیش‌بینی‌ای که اکنون تحقق یافته است.

بر اساس گزارش منابع نزدیک به شرکت، تا پایان سال ۲۰۲۵ قرار است حدود ۱۰ درصد دیگر از کارکنان AWS تعدیل شوند و ۲۵ درصد این کاهش شامل موقعیت‌های ارشد و «پرینسیپال» خواهد بود. این در حالی است که مهندسان در این سطح معمولاً مسئول تصمیم‌های کلیدی معماری و هدایت پروژه‌های حیاتی هستند.

پیامدهای جهانی برای کسب‌وکارها 

قطعی اخیر بار دیگر نشان داد تا چه اندازه وابستگی به سرویس‌های ابری، اقتصاد دیجیتال جهان را آسیب‌پذیر کرده است. هزاران کسب‌وکار کوچک و بزرگ در بخش‌های بانکداری، خرده‌فروشی، سرگرمی و ارتباطات تنها با چند ساعت وقفه، زیان‌های قابل‌توجهی را تجربه کردند.

در فضای آنلاین، کاربران به طنز به سراغ ضرب‌المثل معروف جامعه فنی رفتند: «حتماً مشکل از DNS نیست… اما در نهایت، مشکل از DNS است!»

اگرچه AWS هنوز توضیح فنی کامل‌تری ارائه نکرده، کارشناسان معتقدند ترکیب ریزش نیروی متخصص، کاهش تجربه فنی و ساختار ارتباطی سنگین درون شرکت، باعث شده تا هر حادثه کوچک، به بحرانی جهانی تبدیل شود.

مطالب مرتبط

دیدگاه‌تان را بنویسید