Llama ۴ معرفی شد؛ ترکیب متن، تصویر، صدا و ویدئو در یک مدل هوش مصنوعی

منبع خبر / شهر سخت‌افزار / فناوری / ۱۸-۰۱-۱۴۰۴

Llama 4 معرفی شد؛ ترکیب متن، تصویر، صدا و ویدئو در یک مدل هوش مصنوعی

شرکت متا نسخه جدیدی از مدل زبانی پیشرفته خود را با نام‌های «لاما ۴ اسکات» و «لاما ۴ ماوریک» معرفی کرد. این دو مدل که به گفته متا پیشرفته‌ترین نسخه‌های لاما تاکنون هستند، توانایی درک و تحلیل هم‌زمان متن، تصویر، ویدئو و صدا را دارند. در ادامه با...

متا می‌گوید لاما ۴ نه‌تنها از لحاظ معماری پیشرفته‌تر از نسخه‌های قبلی است، بلکه به‌صورت متن‌باز عرضه می‌شود تا جامعه جهانی بتواند از آن بهره‌مند شود. این شرکت همچنین اعلام کرد که مدل آزمایشی دیگری به نام «لاما ۴ بیهموث» (Behemoth) نیز در دست توسعه است؛ مدلی که از آن با عنوان یکی از باهوش‌ترین مدل‌های زبانی جهان برای امور آموزشی اسم برده شده است.

معرفی و قابلیت‌های Llama ۴

مدل جدید لاما ۴ ترکیبی از معماری «ترکیب متخصصان» (Mixture of Experts) و ساختار پیش‌همگرا (early-fusion) است؛ ترکیبی که به آن توانایی ذاتی درک هم‌زمان متن و تصویر را می‌دهد. این یعنی برای تعامل با جهان ما، دیگر نیازی به چند مدل جداگانه نیست.

معماری Mixture of Experts قلب تپنده لاما ۴ است. این ساختار هوشمند با بهره‌گیری از شبکه‌هایی موسوم به «متخصص» و مسیریابی هدفمند ورودی‌ها، تنها از بخشی از پارامترها در هر لحظه استفاده می‌کند. نتیجه آن، سرعت بالاتر در پردازش و مصرف منابع کمتر بدون افت کیفیت پاسخ‌هاست.

معماری Llama 4

برای مثال، زمانی که کاربر از مدل می‌خواهد الگوریتم فیبوناچی را به زبان Haskell بنویسد، مدل ورودی را مستقیماً به متخصص برنامه‌نویسی ارجاع می‌دهد؛ در حالی‌که سایر متخصصان غیرفعال باقی می‌مانند. این انعطاف‌پذیری باعث شده لاما ۴ تنها با فعال کردن بخشی از قدرت خود، عملکردی در حد مدل‌های بزرگ را ارائه دهد.

لاما ۴ در دو نسخه عرضه شده است که اولی Scout با ۱۰۹ میلیارد پارامتر کل و ۱۷ میلیارد پارامتر فعال است. اما نسخه قدرتمندتر Maverick نام دارد و از ۴۰۰ میلیارد پارامتر کل تشکیل شده است.

در همین رابطه بخوانید:

- بهترین ربات هوش مصنوعی تلگرام (چت جی پی تی در تلگرام)
- OpenAI مدل هوش مصنوعی GPT-۴,۵ را معرفی کرد؛ بزرگ‌ترین و بهترین مدل زبانی برای گفتگو
- جا به جایی مرز انسان و هوش مصنوعی توسط مدل GPT-۴,۵؛ وقتی ۷۳ درصد کاربران تست تورینگ فریب خوردند

بر خلاف مدل‌های پیشین که برای تحلیل تصویر و متن از دو مسیر متفاوت استفاده می‌کردند، Llama ۴ با ساختار «پیش‌همگرا» به گونه‌ای آموزش دیده که همه پارامترهایش توانایی درک هم‌زمان متن، تصویر و ویدئو را دارند. در مدل‌های قدیمی مانند لاما ۳.۲، هنگام ارسال تصویر، تنها بخش بینایی مدل فعال می‌شد. اما حالا تمام مدل با تمام ظرفیتش درگیر می‌شود.

فناوری