تصور کنید در آستانه تحویل یکی از قدرتمندترین پردازندههای گرافیکی دنیا؛ آن هم در عصر هوش مصنوعی که بازیگران بزرگ تشنه قدرت محاسباتی بیشتر و بیشتر هستند، مشکلی پیش میآید و برنامههای غولهای فناوری را مختل کند. این دقیقاً همان چالشی است که پردازندههای Blackwell انویدیا با آن روبهرو شدهاند. ظاهراً مشکل گرمای بیش از حد این شتاب دهندهها در رکهای سرور، انویدیا را وادار به بازطراحی تجهیزات نموده و مشتریان بزرگی چون گوگل، متا و مایکروسافت را دچار نگرانی کرده است.
ماجرا از جایی آغاز شد که گزارشها نشان میداد سرورهای دارای ۷۲ شتاب دهنده هوش مصنوعی Blackwell که توان مصرفیشان جمعاً به ۱۲۰ کیلووات در هر رک میرسد، با مشکلات حرارتی یا دمای بیش از حد مواجه شدهاند.
چالش Blackwell برای غولهای فناوری و انویدیا
این گرمای اضافی نه تنها عملکرد پردازندهها را کاهش میدهد، بلکه به قطعات نیز آسیب میزند. حالا گفته میشود انویدیا ناچار شده طراحی رکهای سرور را چندین بار اصلاح کند تا از عملکرد آن مطمئن شود. این تغییرات اما باعث تأخیر در زمان تحویل Blackwell شد، مسئلهای که نگرانی مشتریان را درباره تأثیر این تأخیرها بر پروژههایشان افزایش داده است.
اما این اولین مانع در مسیر Blackwell نبود. انویدیا پیشتر به دلیل نقص در طراحی اولیه این پردازندهها، تولید خود GPU را به تعویق انداخته بود. طراحی بسیار پیچیده این سوپر GPUها که از فناوری CoWoS-L شرکت TSMC بهره میگیرد، به دلیل عدم هماهنگی حرارتی میان اجزا، مشکلاتی چون تاب برداشتن و خرابی سیستم را ایجاد کرده بود.
با اصلاح لایههای فلزی و سیلیکونی از طریق باطراحی بخشی از فتوماسک ها، در نهایت این نقص برطرف شد و تولید انبوه از اواخر اکتبر آغاز گردید. با این حال، ظاهراً مشکلات حرارتی همچنان روند تحویل را مختل کرده است.
در همین رابطه بخوانید:
- انویدیا اعتراف کرد: نقص طراحی تراشههای Blackwell تقصیر ما بود، نه TSMC
- انویدیا: قیمت پردازندههای فوق سریع Blackwell نجومی و به 2.5 میلیارد تومان میرسد!
- رونمایی انویدیا از Blackwell B200؛ قدرتمندترین تراشه هوش مصنوعی دنیا با 208 میلیارد ترانزیستور
در حالی که انویدیا وعده داده این چالشها را با همکاری نزدیک با تأمینکنندگان و مشتریان حل کند، تأخیر در عرضه پردازندههای Blackwell میتواند تأثیری مستقیم بر برنامههای شرکتهایی چون گوگل و متا داشته باشد که به این شتاب دهندههای مُدرن برای آموزش مدلهای زبان بزرگ خود وابستهاند. حال باید دید آیا انویدیا میتواند از این بحران عبور کند و رضایت مشتریان خود را جلب کند؟