شناسایی خطرات احتمالی در وسایل نقلیه خودران با یک سیستم هوش مصنوعی
یک سیستم هوش مصنوعی جدید، کیفیت تصویر را در جریان ویدئو بهبود میبخشد یا به وسایل نقلیه خودران کمک میکند تا خطرات جاده را در زمان واقعی شناسایی کنند.
مدلهای یادگیری ماشینی برای بینایی کامپیوتری با وضوح بالا میتواند برنامههای فشرده محاسباتی مانند رانندگی مستقل یا تقسیمبندی تصویر پزشکی را در دستگاهها فعال کنند.
یک سیستم هوش مصنوعی جدید، کیفیت تصویر را در جریان ویدئو بهبود میبخشد یا به وسایل نقلیه خودران کمک میکند تا خطرات جاده را در زمان واقعی شناسایی کنند.
محققان امآیتی یک مدل بینایی کامپیوتری «افیشینتویت» (EfficientViT) را معرفی کردهاند که به تقسیمبندی معنایی بلادرنگ در تصاویر با وضوح بالا سرعت میبخشد و آن را برای دستگاههایی با سختافزار محدود مانند وسایل نقلیه خودران بهینه میکند.
یک وسیله نقلیه خودمختار باید به سرعت و با دقت اشیایی را که با آن مواجه میشود، تشخیص دهد؛ از کامیونی که در گوشهای پارک شده تا دوچرخهسواری که به تقاطع نزدیک میشود.
برای انجام این کار، خودرو از یک مدل بینایی کامپیوتری قدرتمند برای دستهبندی هر پیکسل استفاده میکند، بنابراین اجسامی را که ممکن است با کیفیت پایینتری در تصویر پنهان شوند، از دست نمیدهد. اما این کار زمانی که تصویر دارای وضوح بالا باشد، به محاسبات زیادی نیاز دارد.
بهینهسازی وظایف بینایی کامپیوتری با وضوح بالا
مدلهای جدید تقسیمبندی معنایی، تعامل بین هر جفت پیکسل در یک تصویر را یاد میگیرند، بنابراین با افزایش وضوح تصویر، محاسبات آنها به صورت درجه دوم رشد میکنند. به همین دلیل این مدلها دقیق هستند، برای پردازش تصاویر با وضوح بالا در زمان واقعی در یک دستگاه بسیار کند هستند.
محققان امآیتی یک بلوک ساختمانی جدید برای مدلهای تقسیمبندی معنایی طراحی کردند که تواناییهای مشابه این مدلهای پیشرفته را دارد، اما تنها با پیچیدگی محاسباتی خطی و عملیات سختافزاری کارآمد.
در نتیجه یک سری مدل جدید برای دید کامپیوتری با وضوح بالا ایجاد میشود که در هنگام استقرار در دستگاه تلفن همراه تا ۹ برابر سریعتر از مدلهای قبلی عمل میکند. نکته مهم این است که این مدل جدید، دقت یکسان یا بهتری را نشان میدهد.
افیشینتویت میتواند یک وسیله نقلیه مستقل را قادر سازد تا به طور موثر تقسیمبندی معنایی را انجام دهد، یک کار بینایی کامپیوتری با وضوح بالا که شامل دسته بندی هر پیکسل در یک صحنه است تا وسیله نقلیه بتواند اشیاء را به دقت شناسایی کند.
این تکنیک نه تنها میتواند برای کمک به خودروهای خودران برای تصمیمگیری در زمان واقعی استفاده شود، بلکه میتواند کارایی سایر وظایف بینایی کامپیوتری با وضوح بالا مانند تقسیمبندی تصویر پزشکی را هم بهبود ببخشد.
«سونگ هان»، دانشیار دپارتمان مهندسی برق و علوم کامپیوتر (EECS) میگوید: «کار ما نشان میدهد که میتوان محاسبات را به شدت کاهش داد، بنابراین این تقسیمبندی تصویر در زمان واقعی میتواند به صورت محلی روی یک دستگاه اتفاق بیفتد.»
دسته بندی هر پیکسل در یک تصویر با وضوح بالا که ممکن است میلیونها پیکسل داشته باشد برای مدل یادگیری ماشینی کار دشواری است. یک نوع جدید از مدل قدرتمند که بهعنوان ترانسفورماتور بینایی شناخته میشود، اخیراً مورد استفاده قرار گرفته است.
ترانسفورماتورها در ابتدا برای پردازش زبان طبیعی ساخته شدند. در این زمینه، آنها هر کلمه را در یک جمله بهعنوان یک نشانه رمزگذاری میکنند و سپس یک نقشه توجه ایجاد میکنند که روابط هر نشانه را با سایر نشانهها نشان میدهد.
از آنجایی که یک تصویر با وضوح بالا ممکن است حاوی میلیونها پیکسل باشد، نقشه توجه به سرعت زیاد میشود. به همین دلیل، با افزایش وضوح تصویر، مقدار محاسبات به صورت درجه دوم افزایش مییابد.
یکی از این عناصر به مدل کمک میکند تا تعاملات ویژگیهای محلی را بگیرد و ضعف تابع خطی در استخراج اطلاعات محلی را کاهش دهد. دومی، ماژولی که یادگیری چند مقیاسی را امکان پذیر میکند که مدل بتواند اشیاء بزرگ و کوچک را تشخیص دهد.
آنها افیشینتویت را با معماری سختافزاری طراحی کردند، بنابراین میتوان آن را بر روی انواع مختلف دستگاهها مانند هدستهای واقعیت مجازی یا رایانههای لبه در وسایل نقلیه خودران، آسانتر اجرا کرد. مدل آنها همچنین میتواند برای سایر وظایف بینایی کامپیوتری مانند طبقه بندی تصویر اعمال شود.
واحد پردازش گرافیکی انویدیا ۹ برابر سریعتر عمل میکند
هنگامی که آنها مدل خود را روی مجموعه دادههای مورد استفاده برای تقسیمبندی معنایی آزمایش کردند، دریافتند که واحد پردازش گرافیکی انویدیا ۹ برابر سریعتر از سایر مدلهای محبوب ترانسفورماتور بینایی عمل میکند.
هان در این باره میگوید: «اکنون میتوانیم بهترین مدلها را داشته باشیم و محاسبات را به اندازهای سریع کاهش دهیم که بتوانیم آن را روی دستگاههای موبایل و ابری اجرا کنیم.»
بر اساس این نتایج، محققان میخواهند از این تکنیک برای سرعت بخشیدن به مدلهای یادگیری ماشینی مولد، مانند مدلهایی که برای تولید تصاویر جدید استفاده میشوند، بهره بگیرند. آنها همچنین میخواهند به افزایش مقیاس افیشینتویت برای سایر وظایف بینایی بپردازند.
فشردهسازی مدل و طراحی مدل سبکوزن، موضوعات تحقیقاتی حیاتی برای محاسبات هوش مصنوعی کارآمد، بهویژه در زمینه مدلهای پایه بزرگ هستند.
«جی جکسون»، معاون جهانی هوش مصنوعی میگوید: «گروه پروفسور سونگ هان پیشرفت قابلتوجهی در فشردهسازی و تسریع مدلهای یادگیری عمیق مدرن، بهویژه ترانسفورماتورهای بینایی نشان دادهاند.»