ادعای جنجالی OpenAI: دیپ سیک مدل خودش را با داده‌های ChatGPT آموزش داده است

منبع خبر / شهر سخت‌افزار / فناوری / ۱۰-۱۱-۱۴۰۳

در حالی که OpenAI و مایکروسافت همیشه در صدر رقابت‌های هوش مصنوعی بوده‌اند، حالا ادعا می‌کنند که استارتاپ چینی DeepSeek با روشی بحث‌برانگیز از مدل‌های آن‌ها الگوبرداری کرده است. اما آیا این یک سرقت آشکار است یا فقط استفاده هوشمندانه از شکاف‌های...

در حالی که OpenAI و مایکروسافت همیشه در صدر رقابت‌های هوش مصنوعی بوده‌اند، حالا ادعا می‌کنند که استارتاپ چینی DeepSeek با روشی بحث‌برانگیز از مدل‌های آن‌ها الگوبرداری کرده است. اما آیا این یک سرقت آشکار است یا فقط استفاده هوشمندانه از شکاف‌های قانونی؟

در حالی که OpenAI و مایکروسافت از قدرت گرفتن استارتاپ چینی DeepSeek خشمگین هستند، ادعای جدیدی را علیه آن مطرح کرده‌اند: سرقت فناوری و کاهش سهم بازار آن‌ها. این ادعا از سوی شرکتی مطرح شده که خودش ChatGPT را بر پایه داده‌های دارای حق نشر توسعه داده است؛ موضوعی که پیش‌تر به آن اذعان کرده بود.

موج ایجاد شده به واسطه عملکرد بی‌نظیر هوش مصنوعی دیپ سیک به حدی گسترده است که طی چند روز گذشته بیشتر خروجی سرخط‌های خبری دنیای فناوری را به خود اختصاص داده است.

اما ساعتی پیش خبری منتشر شد که شاید بسیاری انتظارش را می‌کشیدند. در این خبر یکی از مسئولان OpenAI مدعی شده که دیپ سیک، به نحوی قوانین آنها را نقض کرده و از داده‌های موجود مدل‌های ساخته شده توسط این شرکت برای آموزش مدل خودش استفاده کرده است.

در همین رابطه بخوانید:

- دیپ سیک چیست؟ چطور از هوش مصنوعی DeepSeek استفاده کنیم؟
- معرفی هوش مصنوعی Qwen۲,۵-Max علی بابا با امکانات پیشرفته‌تر از دیپ سیک

دیپ سیک داده‌های خود را از ChatGPT استخراج کرده؟!

بنابر گزارش Gizmodo، شرکت OpenAI در گفت‌وگویی با فایننشال تایمز مدعی شده که DeepSeek از روشی به نام «تقطیر دانش (Distillation)» برای ساخت چت‌بات خود استفاده کرده است. دیوید ساکس، یکی از اعضای برجسته PayPal Mafia و مشاور کاخ سفید در زمینه هوش مصنوعی و ارزهای دیجیتال، در این مورد توضیح داده است:

تقطیر دانش در هوش مصنوعی به فرآیندی گفته می‌شود که یک مدل از مدل دیگر یاد می‌گیرد. مدل کوچک‌تر، مشابه یک دانش‌آموز، سؤالات زیادی از مدل مادر می‌پرسد. اما تفاوت در اینجاست که هوش مصنوعی می‌تواند میلیون‌ها سؤال مطرح کند و عملاً منطق و الگوهای یادگیری را از مدل مادر استخراج کند.

این ادعا مطرح می‌کند که به زبان ساده، DeepSeek حجم عظیمی از خروجی‌های ChatGPT را دریافت و از آن‌ها برای آموزش مدل زبانی خود استفاده کرده است. این روش باعث می‌شود بدون صرف میلیاردها دلار هزینه توسعه، یک مدل زبان قدرتمند ساخته شود.

آیا OpenAI شواهدی برای این ادعا دارد؟

OpenAI در حالی این اتهامات را مطرح کرده که هیچ مدرک مستقیمی ارائه نکرده است. همچنین، در همان مصاحبه با فایننشال تایمز اذعان کرده که هیچ شرکتی قادر به ساخت نسخه‌ای کاملاً مشابه ChatGPT نیست. با این وجود، مایکروسافت متوجه فعالیت‌های مشکوک در API این مدل شده و احتمال داده که DeepSeek از این طریق داده‌های مورد نیازش را جمع‌آوری کرده باشد. این اقدام، در صورت صحت، می‌تواند نقض شرایط استفاده (Terms of Service) از ChatGPT تلقی شود.

در همین رابطه بخوانید:

- انفجار دوم DeepSeek در صنعت هوش مصنوعی: مدل تصویرساز Janus-Pro منتشر شد

تفاوت کپی کردن و سوء استفاده از مدل هوش مصنوعی

در این زمینه باید در نظر داشت که تفاوت اصلی بین کپی کردن داده‌ها و سوءاستفاده از قوانین برای آموزش مدل هوش مصنوعی در روش به‌دست‌آوردن و استفاده از داده‌ها نهفته است. بگذارید در ادامه این دو مبحث را به صورت روشن‌تری به شما توضیح دهیم:

کپی کردن داده‌ها (Direct Copying)

کپی کردن داده‌های یک مدل هوش مصنوعی به معنای برداشت و استفاده بدون تغییر از داده‌های متعلق به دیگران، بدون اجازه یا نقض قوانین حق نشر (Copyright Infringement) است.

برای مثال می‌توان گفت اگر یک شرکت کل دیتاست‌های خصوصی یا محتوای محافظت‌شده (مانند کتاب‌ها، مقالات یا کدهای نرم‌افزاری) را بدون مجوز استفاده کند، این یک تخلف آشکار است.

مشکل اصلی این روش این است که به صورت کامل نقض قوانین مالکیت فکری و نقض حریم خصوصی کاربران رخ داده که نقض Terms of Use نیز تلقی می‌شود.

سوءاستفاده از قوانین برای آموزش مدل AI (Loophole Exploitation)

این مورد از نظر ماهوی با کپی کردن متفاوت است. طبق تعریف، سوء استفاده از قوانیم برای آموزش مدل AI به معنای استفاده از داده‌های عمومی یا نیمه‌خصوصی به شکلی که قوانین فعلی را دور بزند، ولی از نظر حقوقی تخلف محسوب نشود، خواهد بود.

برای مثال در این زمینه روش تقطیر دانش (Distillation) عنوان می‌شود که در آن یک مدل هوش مصنوعی به‌جای کپی مستقیم داده‌ها، از خروجی‌های یک مدل دیگر استفاده می‌کند (مانند آنچه DeepSeek متهم به انجام آن شده است).

در نظر داشته باشید که در این خصوص، استفاده از اطلاعات عمومی وب‌سایت‌ها (مانند Wikipedia یا GitHub) که تحت قوانین «استفاده منصفانه (Fair Use)» قرار می‌گیرند، منعی ندارد و مصداق تخطی از قوانین تلقی نمی‌شود.

این روش از نظر قانونی ممکن است قابل پیگیری نباشد، اما مسائل اخلاقی و تجاری (مانند کاهش ارزش مدل‌های اختصاصی شرکت‌های دیگر) را ایجاد می‌کند که دقیقاً در خصوص مدل مورد استفاده DeepSeek، عنوان می‌شود.

واکنش آمریکا و آینده رقابت در هوش مصنوعی

دیوید ساکس در مصاحبه‌ای با فاکس نیوز تأکید کرد که ایالات متحده همچنان پیشرو در صنعت هوش مصنوعی است و تنها راه حفظ این برتری، سرمایه‌گذاری بیشتر در مراکز داده است. او همچنین افزود که دونالد ترامپ، رئیس‌جمهور سابق آمریکا، از این زیرساخت‌ها حمایت کرده و ایالات متحده باید روند مجوزدهی و تأمین برق برای این مراکز را تسهیل کند.

علاوه بر این، ساکس علت پیشرفت چین را مقررات سخت‌گیرانه دولت بایدن و تمرکز بیش از حد شرکت‌های آمریکایی روی موضوعات فرهنگی عنوان کرد:

شرکت‌های ما وقت زیادی را روی مسائلی مانند تنوع و برابری (DEI) تلف کردند. شما دیدید که مدل‌های هوش مصنوعی به سمت رویکردهای بیدار (Woke) رفتند، مانند تولید تصویر جورج واشنگتن سیاه‌پوست.

در حالی که این بحث‌ها همچنان داغ است، DeepSeek همچنان در صدر اپ استور اپل قرار دارد و این نشان می‌دهد که رقابت در حوزه هوش مصنوعی، تازه به نقطه اوج خود رسیده است.

فناوری