محدودیتهای یک تکنیک پرکاربرد در بهینهسازی هوش مصنوعی/ نقش کوانتیزهسازی در بهینهسازی مدلهای هوش مصنوعی
محدودیتهای کوانتیزاسیون در مدلهای هوش مصنوعی آشکار شده است؛ روشی که با کاهش دقت بیتها، هزینهها را کاهش میدهد اما به عملکرد آسیب میزند.
کوانتیزهسازی، تکنیکی که به طور گسترده در صنعت هوش مصنوعی برای افزایش کارایی مدلها استفاده میشود، اکنون به دلیل محدودیتهای احتمالی آن تحت بررسی قرار گرفته است. این روش شامل کاهش تعداد بیتهایی است که برای نمایش دادهها استفاده میشوند.
به زبان ساده، این تکنیک مانند گفتن «ظهر» به جای «ساعت ۱۲:۰۰:۰۱ و چهار میلیثانیه» است؛ هر دو بیان دقیقاند، اما یکی کمتر جزئیات دارد. در هوش مصنوعی، چنین سادهسازیهایی میتواند نیازهای محاسباتی را کاهش دهد و اجرای میلیونها محاسبه را بهینه کند.
کوانتیزهسازی به ویژه برای پارامترها، که متغیرهای داخلی مدلهای هوش مصنوعی برای پیشبینی هستند، اهمیت دارد. کاهش بیتهای مورد استفاده برای نمایش این پارامترها میتواند عملیات ریاضی را سادهتر کرده و هزینهها و منابع محاسباتی را کاهش دهد. اما یک مطالعه جدید نشان میدهد که این روش دارای معاوضههایی است.
مطالعهای جدید محدودیتهای کوانتیزهسازی را آشکار میکند
یک پژوهش مشترک با همکاری محققانی از دانشگاههای هاروارد، استنفورد، MIT، Databricks و کارنگی ملون نشان داده است که مدلهای کوانتیزهشده زمانی که مدلهای اصلی و بدون کوانتیزهسازی بر روی دادههای بسیار بزرگ آموزش دیده باشند، دچار افت عملکرد میشوند.
این یافتهها چالشهایی را برای روش مرسوم صنعت، یعنی ساخت مدلهای بزرگ، بهینهسازی آنها و سپس کوانتیزهسازی برای کاهش هزینهها، ایجاد کرده است. بر اساس این پژوهش، ممکن است مؤثرتر باشد که از ابتدا مدلهای کوچکتری آموزش داده شوند تا اینکه مدلهای بزرگ را فشرده کنیم.
این چالشها هماکنون بر توسعه هوش مصنوعی تأثیر گذاشته است. به عنوان مثال، توسعهدهندگان متوجه شدهاند که مدل Llama 3 متعلق به متا پس از کوانتیزهسازی افت عملکرد بیشتری نسبت به سایر مدلها دارد. این مسئله ممکن است به دلیل آموزش گسترده Llama 3 باشد.
تانیش کومار، نویسنده اصلی این مطالعه و دانشجوی ریاضی در هاروارد، بیان کرد: «مطالعه ما نشان میدهد که یکی از روشهای مهم برای کاهش هزینههای استنتاج نمیتواند به طور نامحدود مؤثر باشد.»
افزایش هزینههای استنتاج در هوش مصنوعی
بر خلاف تصور عمومی، هزینه استنتاج مدلهای هوش مصنوعی یعنی اجرای مدل برای تولید خروجی اغلب بیشتر از هزینه آموزش آن است. به عنوان مثال، گوگل برای آموزش یکی از مدلهای Gemini خود حدود ۱۹۱ میلیون دلار هزینه کرده است. اما استفاده از این مدل برای تولید پاسخهای کوتاه برای نیمی از جستجوهای گوگل میتواند سالانه حدود ۶ میلیارد دلار هزینه داشته باشد. این مسئله هزینه استنتاج را به یک چالش کلیدی برای شرکتهای هوش مصنوعی تبدیل کرده است.
صنعت به طور گستردهای مفهوم مقیاسبندی آموزش مدلها بر روی دادههای بسیار عظیم را پذیرفته است. به عنوان مثال، متا مدل Llama 3 را بر روی ۱۵ تریلیون توکن آموزش داده است، در حالی که پیشینیان آن، مانند Llama 2، بر روی ۲ تریلیون توکن آموزش دیده بودند. اگرچه مقیاسبندی معمولاً عملکرد مدل را بهبود میبخشد، اما در نهایت به نقطهای از بازده کاهشی میرسد. هر دو شرکت Anthropic و گوگل محدودیتهایی را در این زمینه با مدلهای بزرگمقیاس اخیر خود تجربه کردهاند.
راهحلی برای مشکل؟
این مطالعه پیشنهاد میکند که آموزش مدلها در "دقت پایینتر" میتواند برخی از مشکلات کوانتیزهسازی را کاهش دهد. دقت به تعداد ارقام قابل نمایش یک مقدار عددی اشاره دارد. به عنوان مثال، بیشتر مدلها امروزه با دقت ۱۶ بیتی آموزش داده میشوند و سپس برای استنتاج به دقت ۸ بیتی کاهش مییابند. برخی از شرکتهای سختافزاری، مانند Nvidia، در حال بررسی فرمتهایی با دقت حتی پایینتر، مانند FP4 4 بیتی، برای افزایش کارایی در محیطهایی با محدودیت حافظه و توان هستند.
با این حال، این پژوهش هشدار میدهد که کاهش بیش از حد دقت نیز مشکلساز است. مدلهایی با دقت کمتر از ۷ یا ۸ بیت ممکن است کاهش کیفیت محسوسی داشته باشند، مگر اینکه مدل اصلی به طور استثنایی بزرگ باشد. کومار توضیح میدهد: «محدودیتهایی وجود دارد که نمیتوان به طور ساده از آنها عبور کرد.»
آینده بهینهسازی هوش مصنوعی
کومار و همکارانش برنامه دارند که پژوهش خود را برای بررسی مدلهای متنوعتر گسترش دهند. با این حال، یافتههای آنها نشان میدهد که کاهش هزینههای استنتاج به چیزی بیش از کاهش دقت نیاز دارد. در عوض، تلاشهای آینده ممکن است بر انتخاب و فیلتر کردن دادههای آموزشی با کیفیت بالا متمرکز شود تا مدلهای کوچکتر بتوانند بدون نیاز به مقیاسبندی گسترده عملکرد قویای داشته باشند. علاوه بر این، معماریهای جدید طراحیشده برای آموزش پایدار در دقت پایین میتوانند نقشی کلیدی ایفا کنند.
در مجموع، اگرچه کوانتیزهسازی همچنان ابزاری ارزشمند برای بهبود کارایی هوش مصنوعی است اما محدودیتهای آن نیاز به نوآوری در طراحی مدل و استراتژیهای آموزشی را برجسته میکند. به گفته کومار، «دقت بیت اهمیت دارد و رایگان نیست. کلید موفقیت، انتخاب دقیق داده و معماریهای نوآورانه است که پایداری در دقت پایین را تضمین کنند.»