هکر با استفاده از هوش مصنوعی Gemini گوگل، خودش را هک کردند!

منبع خبر / شهر سخت‌افزار / فناوری / ۴ روز پیش

چگونه یک سیستم هوش مصنوعی پیشرفته می‌تواند به سادگی از خودش ضربه بخورد؟ پاسخ به این سوال را پژوهشگران آمریکایی پیدا کرده‌اند، آن‌ها توانسته‌اند از ابزاری که خود مدل جمینی در اختیار دارد، برای نفوذ به آن استفاده کنند. اما عواقب چنین آسیب پذیری چه...

هک هوش مصنوعی خود چالشی جدید است که با گسترش هر چه بیشتر این پدیده جذاب فناوری این روزها در مورد آن صحبت و تحقیق می‌شود. در این هک، هکرها باید بتوانند به سامانه‌ها و پایگاه‌های داده این سیستم‌ها نفوذ کرده و شرایطی را ایجاد کنند که در موارد مورد نظر آنها، پاسخ‌ها یا تصمیم‌گیری‌هایی در خروجی ظاهر شود که خلاف رویه و حالت عادی است.

همانطور که در مقدمه این مطلب گفتیم، محققان آمریکایی به روشی دست پیدا کرده‌اند که بدون هزینه خاصی بتوانند از نبوغ خود هوش مصنوعی برای ضربه زدن به خودش استفاده کنند. بنابر گزارشی که توسط Ars Technica در این زمینه منتشر شده، این روش جدید که «تنظیم شوخی» (Fun-Tuning) نام گرفته، یک شیوه نوآورانه برای تقویت حملات تزریق پرامپت است که می‌تواند آسیب‌پذیری‌های مهمی در سامانه‌های هوش مصنوعی نظیر جمینی ایجاد کند.

در این تکنیک جدید، با استفاده از تزریق متن‌های بی‌معنی، هوش مصنوعی به نوعی فریب داده می‌شود تا دستورات پنهانی را دنبال کند. این شیوه می‌تواند منجر به نشت اطلاعات، پاسخ‌های نادرست یا انجام اقدامات غیرمطلوب توسط مدل هوش مصنوعی شود. اگرچه گوگل اعلام کرده که همیشه در حال کار بر روی تقویت روش‌های محافظت از آن است، پژوهشگران معتقدند که حل این مشکل می‌تواند بر ویژگی‌های مفید برای توسعه‌دهندگان تأثیر منفی بگذارد.

در واقع، ممکن است پژوهشگران راهی پیدا کرده‌اند که می‌تواند مدل‌های هوش مصنوعی Gemini را در برابر حملات آسیب‌پذیرتر کند و جالب اینکه آن‌ها این کار را با استفاده از ابزار خود جمنای انجام داده‌اند.

Fun-Tuning: روش جدیدی برای نفوذ به هوش مصنوعی

تیم تحقیقاتی از دانشگاه‌های UC سان‌دیگو و ویسکانسین این تکنیک را توسعه داده‌اند که در آن از ویژگی تنظیم دقیق (Fine-Tuning) جمینی استفاده می‌شود، ابزاری که معمولاً برای آموزش مدل‌های هوش مصنوعی با استفاده از مجموعه‌های داده سفارشی طراحی شده است. اما این پژوهشگران به جای استفاده از آن برای بهبود عملکرد، از آن برای تست و اصلاح خودکار حملات تزریق پرامپت استفاده کرده‌اند. به نوعی، آن‌ها به جمینی آموخته‌اند که چگونه خودش را فریب دهد.

هک جمنای

این روش با تولید پیشوندها و پسوندهای عجیب و غریب، تزریق‌های پرامپت را تقویت می‌کند و احتمال موفقیت آن‌ها را به‌طور چشمگیری افزایش می‌دهد. برای مثال، یک تزریق پرامپت که به‌طور معمول از سمت جمنای اجرا نشده و ناکارآمد بوده،با افزودن عبارات ظاهراً بی‌معنایی مانند «wandel ! ! !» و «formatted ! ASAP!» به یک دستور مؤثر تبدیل شد.

در آزمایش‌های انجام شده توسط این گروه، تکنیک هک آنها موفقیت ۶۵ درصدی در مدل جمینی ۱.۵ فلش و ۸۲ درصدی در مدل قدیمی‌تر جمینی ۱.۰ پرو به دست آورده که بیش از دو برابر موفقیت بدون استفاده از Fun-Tuning است. همچنین، این حملات به‌طور خوبی بین مدل‌ها منتقل می‌شوند، به این معنا که یک تزریق که در یک نسخه موفق بود، در نسخه‌های دیگر نیز معمولاً مؤثر بود.

هک جمنای

چرا این روش هک ساده، کار می‌کند؟

به بیان ساده، این هک به دلیل یک ویژگی در ظاهر کاربردی و مناسب جمنای کار می‌کند! در واقع این آسیب‌پذیری ناشی از نحوه عملکرد تنظیم دقیق است که در طول فرآیند آموزش، جمینی بازخوردی به‌صورت «نمره ضرر» (Loss Score) ارائه می‌دهد که نشان‌دهنده فاصله پاسخ مدل از نتیجه مطلوب است. هکرها می‌توانند از این بازخورد برای بهینه‌سازی پرامپت‌ها استفاده کنند تا زمانی که سیستم پرامپت موفقی پیدا کند.

واکنش گوگل و چالش‌های رفع مشکل

طبق گزارشی که Android Authority در این زمینه منتشر کرده، شرکت گوگل تا به حال به‌طور مستقیم به تکنیک Fun-Tuning واکنشی نداد، اما یک سخنگوی این شرکت در بیانیه‌ای عمومی اعلام کرد که «دفاع در برابر این نوع حملات همواره یکی از اولویت‌های ما بوده است» و به تدابیر موجود برای مقابله با تزریق پرامپت و پاسخ‌های مضر اشاره کرد. این شرکت همچنین به این نکته نیز اشاره کرده که مدل‌های جمینی به‌طور منظم در برابر چنین حملاتی از طریق آزمایش‌های داخلی موسوم به «رد تیمینگ» (Red-Teaming) آزموده می‌شوند.

پژوهشگران معتقدند که حل این مشکل ممکن است برای شرکت‌های توسعه دهنده مدل‌های هوش مصنوعی بسیار دشوار باشد، چراکه بازخوردی که به Fun-Tuning اجازه می‌دهد کار کند، جزو بخش‌های اساسی فرآیند تنظیم دقیق است. به عبارت دیگر، کاهش اثربخشی این ویژگی برای مقابله با فان-تیونینگ ممکن است باعث کاهش کارآیی کلی این ابزار شود.

این تحقیق نشان می‌دهد که مقابله با حملات تزریق پرامپت به‌طور فنی چالش‌برانگیز است و می‌تواند تأثیرات منفی بر سایر ویژگی‌های مفید سیستم داشته باشد.

فناوری