چگونه یک سیستم هوش مصنوعی پیشرفته میتواند به سادگی از خودش ضربه بخورد؟ پاسخ به این سوال را پژوهشگران آمریکایی پیدا کردهاند، آنها توانستهاند از ابزاری که خود مدل جمینی در اختیار دارد، برای نفوذ به آن استفاده کنند. اما عواقب چنین آسیب پذیری چه خواهد بود؟
هک هوش مصنوعی خود چالشی جدید است که با گسترش هر چه بیشتر این پدیده جذاب فناوری این روزها در مورد آن صحبت و تحقیق میشود. در این هک، هکرها باید بتوانند به سامانهها و پایگاههای داده این سیستمها نفوذ کرده و شرایطی را ایجاد کنند که در موارد مورد نظر آنها، پاسخها یا تصمیمگیریهایی در خروجی ظاهر شود که خلاف رویه و حالت عادی است.
همانطور که در مقدمه این مطلب گفتیم، محققان آمریکایی به روشی دست پیدا کردهاند که بدون هزینه خاصی بتوانند از نبوغ خود هوش مصنوعی برای ضربه زدن به خودش استفاده کنند. بنابر گزارشی که توسط Ars Technica در این زمینه منتشر شده، این روش جدید که «تنظیم شوخی» (Fun-Tuning) نام گرفته، یک شیوه نوآورانه برای تقویت حملات تزریق پرامپت است که میتواند آسیبپذیریهای مهمی در سامانههای هوش مصنوعی نظیر جمینی ایجاد کند.
در این تکنیک جدید، با استفاده از تزریق متنهای بیمعنی، هوش مصنوعی به نوعی فریب داده میشود تا دستورات پنهانی را دنبال کند. این شیوه میتواند منجر به نشت اطلاعات، پاسخهای نادرست یا انجام اقدامات غیرمطلوب توسط مدل هوش مصنوعی شود. اگرچه گوگل اعلام کرده که همیشه در حال کار بر روی تقویت روشهای محافظت از آن است، پژوهشگران معتقدند که حل این مشکل میتواند بر ویژگیهای مفید برای توسعهدهندگان تأثیر منفی بگذارد.
در واقع، ممکن است پژوهشگران راهی پیدا کردهاند که میتواند مدلهای هوش مصنوعی Gemini را در برابر حملات آسیبپذیرتر کند و جالب اینکه آنها این کار را با استفاده از ابزار خود جمنای انجام دادهاند.
Fun-Tuning: روش جدیدی برای نفوذ به هوش مصنوعی
تیم تحقیقاتی از دانشگاههای UC ساندیگو و ویسکانسین این تکنیک را توسعه دادهاند که در آن از ویژگی تنظیم دقیق (Fine-Tuning) جمینی استفاده میشود، ابزاری که معمولاً برای آموزش مدلهای هوش مصنوعی با استفاده از مجموعههای داده سفارشی طراحی شده است. اما این پژوهشگران به جای استفاده از آن برای بهبود عملکرد، از آن برای تست و اصلاح خودکار حملات تزریق پرامپت استفاده کردهاند. به نوعی، آنها به جمینی آموختهاند که چگونه خودش را فریب دهد.
این روش با تولید پیشوندها و پسوندهای عجیب و غریب، تزریقهای پرامپت را تقویت میکند و احتمال موفقیت آنها را بهطور چشمگیری افزایش میدهد. برای مثال، یک تزریق پرامپت که بهطور معمول از سمت جمنای اجرا نشده و ناکارآمد بوده،با افزودن عبارات ظاهراً بیمعنایی مانند «wandel ! ! !» و «formatted ! ASAP!» به یک دستور مؤثر تبدیل شد.
در آزمایشهای انجام شده توسط این گروه، تکنیک هک آنها موفقیت ۶۵ درصدی در مدل جمینی ۱.۵ فلش و ۸۲ درصدی در مدل قدیمیتر جمینی ۱.۰ پرو به دست آورده که بیش از دو برابر موفقیت بدون استفاده از Fun-Tuning است. همچنین، این حملات بهطور خوبی بین مدلها منتقل میشوند، به این معنا که یک تزریق که در یک نسخه موفق بود، در نسخههای دیگر نیز معمولاً مؤثر بود.
چرا این روش هک ساده، کار میکند؟
به بیان ساده، این هک به دلیل یک ویژگی در ظاهر کاربردی و مناسب جمنای کار میکند! در واقع این آسیبپذیری ناشی از نحوه عملکرد تنظیم دقیق است که در طول فرآیند آموزش، جمینی بازخوردی بهصورت «نمره ضرر» (Loss Score) ارائه میدهد که نشاندهنده فاصله پاسخ مدل از نتیجه مطلوب است. هکرها میتوانند از این بازخورد برای بهینهسازی پرامپتها استفاده کنند تا زمانی که سیستم پرامپت موفقی پیدا کند.
واکنش گوگل و چالشهای رفع مشکل
طبق گزارشی که Android Authority در این زمینه منتشر کرده، شرکت گوگل تا به حال بهطور مستقیم به تکنیک Fun-Tuning واکنشی نداد، اما یک سخنگوی این شرکت در بیانیهای عمومی اعلام کرد که «دفاع در برابر این نوع حملات همواره یکی از اولویتهای ما بوده است» و به تدابیر موجود برای مقابله با تزریق پرامپت و پاسخهای مضر اشاره کرد. این شرکت همچنین به این نکته نیز اشاره کرده که مدلهای جمینی بهطور منظم در برابر چنین حملاتی از طریق آزمایشهای داخلی موسوم به «رد تیمینگ» (Red-Teaming) آزموده میشوند.
پژوهشگران معتقدند که حل این مشکل ممکن است برای شرکتهای توسعه دهنده مدلهای هوش مصنوعی بسیار دشوار باشد، چراکه بازخوردی که به Fun-Tuning اجازه میدهد کار کند، جزو بخشهای اساسی فرآیند تنظیم دقیق است. به عبارت دیگر، کاهش اثربخشی این ویژگی برای مقابله با فان-تیونینگ ممکن است باعث کاهش کارآیی کلی این ابزار شود.
این تحقیق نشان میدهد که مقابله با حملات تزریق پرامپت بهطور فنی چالشبرانگیز است و میتواند تأثیرات منفی بر سایر ویژگیهای مفید سیستم داشته باشد.