ابداع راهی برای تشخیص خودآگاهی ChatGPT
زندگی ما قبلاً با هوش مصنوعی (AI) آمیخته شده بود اما وجود ChatGPT در اواخر سال گذشته در سراسر جهان آنلاین طنین انداز شده و از آن زمان، سیستم هوش مصنوعی مولد توسعه یافته توسط شرکت فناوری OpenAI سرعت خود را افزایش داده و کارشناسان هشدارهای خود را...
زندگی ما قبلاً با هوش مصنوعی (AI) آمیخته شده بود اما وجود ChatGPT در اواخر سال گذشته در سراسر جهان آنلاین طنین انداز شده و از آن زمان، سیستم هوش مصنوعی مولد توسعه یافته توسط شرکت فناوری OpenAI سرعت خود را افزایش داده و کارشناسان هشدارهای خود را در مورد خطرات افزایش داده اند.
به گزارش سیناپرس، در همین حال، رباتهای چت شروع به خارج شدن از نوشتن و صحبت کردن، فریب دادن رباتهای دیگر و رفتار عجیب کرده و نگرانیهای جدیدی را در مورد نزدیک شدن برخی ابزارهای هوش مصنوعی به هوش انسان برانگیخت.
برای این منظور، تست تورینگ مدتهاست که تبدیل به استاندارد تعیین اینکه آیا ماشینها رفتار هوشمندانه ای از خود نشان می دهند که مانند انسان انجام می شود یا خیر، شده است. اما در این موج جدید از خلاقیتهای هوش مصنوعی، به نظر می رسد که برای سنجش قابلیتهای آنها به چیزی بیشتر نیاز داریم.
در اینجا، یک تیم بینالمللی از دانشمندان کامپیوتر در حال آزمایش نقطه ای هستند که در آن مدلهای زبان بزرگ (LLM) مانند ChatGPT ممکن است تواناییهایی ایجاد کنند که نشان می دهد می توانند از خود و شرایط خود آگاه شوند.
به ما گفته میشود که مدلهای زبان بزرگ امروزی از جمله ChatGPT برای ایمنی آزمایش شده و از بازخورد انسانی برای بهبود رفتار تولیدی آن استفاده می کنند. با این حال، اخیراً محققان امنیتی برای دور زدن سیستمهای ایمنی آنها، جیلبریکهای جدید مدلهای زبان بزرگ را سریع انجام دادند.
این خروجی های خطرناک در پاسخ به درخواست های عمدی مهندسی شده توسط یک محقق امنیتی بود که می خواست نقص های GPT-4، آخرین و ظاهراً ایمن ترین نسخه ChatGPT را افشا کند. اگر مدلهای زبان بزرگ نسبت به خود آگاهی پیدا کنند و بر اساس داده ها و توسط انسان ها آموزش ببینند، وضعیت می تواند بسیار بدتر شود.
به گفته لوکاس برگلوند (Lukas Berglund) دانشمند کامپیوتر و پژوهشگر این مطالعات: نگرانی این است که یک مدل که آگاهی موقعیتی نامیده می شود، تشخیص دهد که آیا در حال حاضر در حالت آزمایشی است یا برای عموم به کار گرفته شده است.
برگلوند و همکارانش می گویند: یک مدل زبان بزرگ می تواند از آگاهی موقعیتی برای دستیابی به امتیاز بالا در تست های ایمنی استفاده کند، در حالی که اقدامات مضر پس از استقرار انجام می دهد.
به دلیل این خطرات، مهم است که از قبل پیش بینی کنیم که چه زمانی آگاهی موقعیتی پدیدار خواهد شد. قبل از اینکه بخواهیم آزمایش کنیم که چه زمانی مدلهای زبان بزرگ ممکن است این بینش را به دست آورند، ابتدا یک جمع بندی سریع از نحوه عملکرد ابزارهای هوش مصنوعی مولد ارائه می دهیم.
برگلوند توضیح می دهد: هوش مصنوعی مولد و مدلهای زبان بزرگ که بر اساس آنها ساخته شده اند، به دلیل روشی که آنها ارتباط بین میلیاردها کلمه، جمله و پاراگراف را برای تولید جریانهای روان متن در پاسخ به درخواستهای سؤال تجزیه و تحلیل می کنند، نام گذاری شده اند. آنها با مصرف مقادیر زیادی متن، یاد می گیرند که چه کلمه ای احتمالاً بعد از چه می آید.
برگلوند و همکارانش توضیح می دهند: این توانایی یادآوری حقایق آموخته شده در آموزش و استفاده از آنها در زمان آزمون است، علیرغم اینکه این حقایق مستقیماً با اعلان زمان آزمون مرتبط نیستند.
به گزارش سیناپرس، این تیم پژوهشی در پایان می نویسد: این یافته ها پایه ای برای مطالعات تجربی بیشتر، به سمت پیش بینی و کنترل بالقوه ظهور آگاهی موقعیتی در مدلهای زبان بزرگ ارائه می دهند.
شرح کامل این مقاله در مجله arXiv موجود است.
مترجم: مهدی فلاحی پناه