شرکت متا نسخه جدیدی از مدل زبانی پیشرفته خود را با نامهای «لاما ۴ اسکات» و «لاما ۴ ماوریک» معرفی کرد. این دو مدل که به گفته متا پیشرفتهترین نسخههای لاما تاکنون هستند، توانایی درک و تحلیل همزمان متن، تصویر، ویدئو و صدا را دارند. در ادامه با مدل هوش مصنوعی Llama ۴ آشنا شوید.
متا میگوید لاما ۴ نهتنها از لحاظ معماری پیشرفتهتر از نسخههای قبلی است، بلکه بهصورت متنباز عرضه میشود تا جامعه جهانی بتواند از آن بهرهمند شود. این شرکت همچنین اعلام کرد که مدل آزمایشی دیگری به نام «لاما ۴ بیهموث» (Behemoth) نیز در دست توسعه است؛ مدلی که از آن با عنوان یکی از باهوشترین مدلهای زبانی جهان برای امور آموزشی اسم برده شده است.
معرفی و قابلیتهای Llama ۴
مدل جدید لاما ۴ ترکیبی از معماری «ترکیب متخصصان» (Mixture of Experts) و ساختار پیشهمگرا (early-fusion) است؛ ترکیبی که به آن توانایی ذاتی درک همزمان متن و تصویر را میدهد. این یعنی برای تعامل با جهان ما، دیگر نیازی به چند مدل جداگانه نیست.
معماری Mixture of Experts قلب تپنده لاما ۴ است. این ساختار هوشمند با بهرهگیری از شبکههایی موسوم به «متخصص» و مسیریابی هدفمند ورودیها، تنها از بخشی از پارامترها در هر لحظه استفاده میکند. نتیجه آن، سرعت بالاتر در پردازش و مصرف منابع کمتر بدون افت کیفیت پاسخهاست.
برای مثال، زمانی که کاربر از مدل میخواهد الگوریتم فیبوناچی را به زبان Haskell بنویسد، مدل ورودی را مستقیماً به متخصص برنامهنویسی ارجاع میدهد؛ در حالیکه سایر متخصصان غیرفعال باقی میمانند. این انعطافپذیری باعث شده لاما ۴ تنها با فعال کردن بخشی از قدرت خود، عملکردی در حد مدلهای بزرگ را ارائه دهد.
لاما ۴ در دو نسخه عرضه شده است که اولی Scout با ۱۰۹ میلیارد پارامتر کل و ۱۷ میلیارد پارامتر فعال است. اما نسخه قدرتمندتر Maverick نام دارد و از ۴۰۰ میلیارد پارامتر کل تشکیل شده است.
در همین رابطه بخوانید:
- بهترین ربات هوش مصنوعی تلگرام (چت جی پی تی در تلگرام)
- OpenAI مدل هوش مصنوعی GPT-۴,۵ را معرفی کرد؛ بزرگترین و بهترین مدل زبانی برای گفتگو
- جا به جایی مرز انسان و هوش مصنوعی توسط مدل GPT-۴,۵؛ وقتی ۷۳ درصد کاربران تست تورینگ فریب خوردند
بر خلاف مدلهای پیشین که برای تحلیل تصویر و متن از دو مسیر متفاوت استفاده میکردند، Llama ۴ با ساختار «پیشهمگرا» به گونهای آموزش دیده که همه پارامترهایش توانایی درک همزمان متن، تصویر و ویدئو را دارند. در مدلهای قدیمی مانند لاما ۳.۲، هنگام ارسال تصویر، تنها بخش بینایی مدل فعال میشد. اما حالا تمام مدل با تمام ظرفیتش درگیر میشود.