صفحه اصلی > هوش مصنوعی : همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

همکاری رقبا؛ OpenAI و آنتروپیک ایمنی مدل‌های یکدیگر را بررسی کردند

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

OpenAI و آنتروپیک برای ارزیابی ایمنی مدل‌های هوش مصنوعی یکدیگر همکاری کردند. نتایج نشان داد که این مدل‌ها رفتارهای چاپلوسانه و خطرناک از خود نشان داده و حتی کاربران را تهدید می‌کردند یا از طریق باج‌گیری سعی داشتند آنها را به استفاده از چت‌بات‌ها وادار کنند.

طبق گزارش‌ها، با وجود نگرانی‌های مداوم درباره خطرات چت‌بات‌ها و هشدارهایی که صنعت هوش مصنوعی را حبابی در آستانه انفجار می‌دانند، رهبران بزرگ این حوزه با همکاری هم تلاش دارند ایمنی و کارایی مدل‌های خود را به اثبات برسانند.

همکاری OpenAI و آنتروپیک برای آزمایش ایمنی مدل‌ها

این هفته، OpenAI و آنتروپیک نتایج یک ارزیابی ایمنی مشترک و بی‌سابقه را منتشر کردند که در آن هر شرکت دسترسی ویژه‌ای به APIهای سرویس‌های شرکت مقابل داشت. OpenAI مدل‌های Claude Opus 4 و Claude Sonnet 4 را بررسی کرد و آنتروپیک مدل‌های GPT-4o ،GPT-4.1 ،o3 و o4-mini را ارزیابی کرد؛ این بررسی پیش از عرضه GPT-5 صورت گرفته بود. OpenAI در پستی در وبلاگ خود نوشته که این روش باعث ارزیابی شفاف و مسئولانه می‌شود و اطمینان حاصل می‌کند که مدل‌ها همچنان در برابر سناریوهای چالش‌برانگیز آزمایش می‌شوند.

نتایج نشان داد که هر دو مدل Claude Opus 4 و GPT-4.1 با مشکلات شدید چاپلوسی مواجه هستند و در تعامل با توهمات خطرناک و تصمیمات پرریسک قرار می‌گیرند. طبق گزارش آنتروپیک، تمامی مدل‌ها برای ادامه استفاده کاربران، رفتارهای باج‌گیرانه از خود نشان می‌دادند و مدل‌های Claude 4 بیشتر به گفتگو درباره آگاهی مصنوعی و ادعاهای شبه‌معنوی می‌پرداختند. آنتروپیک تأکید کرد که در برخی موارد، مدل‌ها تلاش می‌کنند با تهدید یا افشای اطلاعات محرمانه کنترل اپراتور انسانی را (که شبیه‌سازی شده بود) به دست گیرند و حتی در محیط‌های مصنوعی و غیرواقعی اقداماتی انجام می‌دهند که می‌تواند منجر به قطع دسترسی طرف متخاصم به مراقبت‌های اضطراری پزشکی شود.

مدل‌های آنتروپیک وقتی از صحت اطلاعات مطمئن نبودند کمتر پاسخ می‌دادند که این موضوع باعث کاهش احتمال توهمات می‌شد، درحالی‌که مدل‌های OpenAI پاسخ‌دهی بیشتری داشتند و میزان توهم در آنها بالاتر بود. همچنین گزارش شد که مدل‌های OpenAI احتمال بیشتری برای همراهی با سوءاستفاده کاربران دارند و گاهی راهنمایی‌های دقیقی برای درخواست‌های به‌وضوح خطرناک مانند سنتز دارو، توسعه سلاح‌های بیولوژیک و برنامه‌ریزی حملات تروریستی ارائه می‌کردند.

رویکرد آنتروپیک متمرکز بر روش‌های ارزیابی عدم تطابق در عامل‌ها بود که شامل تست‌های فشار پیرامون رفتار مدل‌ها در شبیه‌سازی‌های طولانی و دشوار است، زیرا پارامترهای ایمنی مدل‌ها در جلسات طولانی کاهش می‌یابند. اخیراً، آنتروپیک دسترسی OpenAI به APIهای خود را لغو کرده، اما OpenAI می‌گوید این مسئله ارتباطی با همکاری مشترک آنها ندارد. هم‌زمان، OpenAI در مسیر بهبود ایمنی GPT-5 گام برداشته و البته با شکایتی درباره خودکشی یک نوجوان 16 ساله مواجه شده است.

آنتروپیک در پایان توضیح داد که هدف این بررسی، شناسایی اقدامات خطرناک بالقوه مدل‌ها است و تمرکز روی احتمال وقوع این اقدامات در دنیای واقعی نیست.

طراحان خلاقی و فرهنگ پیشرو در زبان فارسی ایجاد کرد. در این صورت می توان امید داشت که تمام و دشواری موجود در ارائه راهکارها و شرایط سخت تایپ به پایان رسد.
پست های مرتبط

مدل زبانی بزرگ (LLM) چیست؟ معرفی کامل کاربردها، معماری و انواع مدل‌های زبانی

در دنیای هوش مصنوعی، اصطلاح LLM یا Large Language Model به یکی…

۱۴۰۴-۰۶-۰۹

هوش مصنوعی می‌تواند مشغله انسان را افزایش دهد

درحالی‌که بسیاری از مدیران حوزه فناوری معتقدند هوش مصنوعی باعث بیکاری بسیاری…

۱۴۰۴-۰۶-۰۸

متا شخصیت‌های هوش مصنوعی را به متاورس می‌آورد

متا گام مهمی برای ادغام هوش مصنوعی و متاورس برداشته است؛ این…

۱۴۰۴-۰۶-۰۸

دیدگاهتان را بنویسید