مدل‌های هوش مصنوعی استدلال‌گر جدید OpenAI بیشتر دچار توهم می‌شوند

چند روز قبل OpenAI از مدل‌های استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدل‌های قبلی این شرکت پیشرفت کرده‌اند. البته طبق گزارش‌های جدید این مدل‌ها هنوز دچار توهم می‌شوند؛ یعنی چیزهایی می‌گویند که واقعیت ندارد.

براساس گزارش تک‌کرانچ، 2 مدل استدلا‌لگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تست‌های OpenAI، این 2 مدل استدلالگر بیشتر از مدل‌های استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدل‌های معمولی OpenAI مانند GPT-4o توهم ایجاد می‌کنند.

درکل توهمات یکی از بزرگ‌ترین مسائل هوش مصنوعی است که برطرف‌کردن آنها بسیار دشوار است. بااین‌حال مدل‌های جدید کمی در بخش توهم بهبود می‌یابند و کمتر از مدل قبلی خود دچار توهم می‌شوند اما این امر درباره o3 و o4-mini صادق نیست.

توهم در مدل‌های هوش مصنوعی جدید OpenAI

نکته نگران‌کننده‌تر این است که OpenAI واقعاً نمی‌داند چرا این اتفاق می‌افتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini می‌نویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدل‌های استدلالی افزایش یافته است.»

O3 و o4-mini در برخی زمینه‌ها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجایی‌که آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همان‌قدر که ادعاهای دقیق‌تری می‌کنند، ادعاهای نادرست و متوهم‌تری نیز ارائه می‌دهند.

OpenAI می‌گوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد می‌کند. این تقریباً دو برابر میزان توهم مدل‌های استدلال‌گر قبلی o1 و o3-mini است که به‌ترتیب امتیاز بنچمارک‌ آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.

توهمات ممکن است به مدل‌ها کمک کند به ایده‌های جالبی برسند و خلاق باشند اما این امر برای کسب‌وکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکل‌ساز است. یکی از روش‌های امیدوارکننده برای افزایش دقت مدل‌ها، داشتن قابلیت جستجوی وب مدل‌هاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارک‌های سنجش دقت) به دست آورد.

نویسنده و خبرنگار

طراحان خلاقی و فرهنگ پیشرو در زبان فارسی ایجاد کرد. در این صورت می توان امید داشت که تمام و دشواری موجود در ارائه راهکارها و شرایط سخت تایپ به پایان رسد.

0 دیدگاه

علی‌بابا از هوش مصنوعی تصویرساز Qwen-Image رونمایی کرد + عکس

تیم هوش مصنوعی شرکت چینی علی‌بابا از مدل هوش مصنوعی جدیدی با…

هوش مصنوعی

۱۴۰۴-۰۵-۱۴

0 دیدگاه

بات‌های Perplexity مخفیانه درحال استفاده از محتوای سایت‌ها هستند

گزارشی از شرکت Cloudflare نشان می‌دهد که استارتاپ هوش مصنوعی Perplexity ظاهراً…

هوش مصنوعی

۱۴۰۴-۰۵-۱۴

0 دیدگاه

محققان از هوش مصنوعی برای کشف قوانین جدید فیزیک استفاده کردند

پژوهشگران دانشگاه اِموری در آتلانتا، جورجیا یک شبکه عصبی آموزش دادند تا…

هوش مصنوعی

۱۴۰۴-۰۵-۱۴

:: برای جستجو تایپ کنید ::

مدل‌های هوش مصنوعی استدلال‌گر جدید OpenAI بیشتر دچار توهم می‌شوند

توهم در مدل‌های هوش مصنوعی جدید OpenAI

نویسنده و خبرنگار

علی‌بابا از هوش مصنوعی تصویرساز Qwen-Image رونمایی کرد + عکس

بات‌های Perplexity مخفیانه درحال استفاده از محتوای سایت‌ها هستند

محققان از هوش مصنوعی برای کشف قوانین جدید فیزیک استفاده کردند

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته‌ها

نوشته‌های تازه

آخرین پست ها

درباره ما

برترین‌فا رسانه‌ای که برای نیاز جامعه شکل گرفته است و هدف آن تبدیل شدن به جامع‌ترین رسانه فارسی است.

آخرین پست ها

دسترسی سریع

دسته بندی ها

:: برای جستجو تایپ کنید ::

مدل‌های هوش مصنوعی استدلال‌گر جدید OpenAI بیشتر دچار توهم می‌شوند

اشتراک گذاری

توهم در مدل‌های هوش مصنوعی جدید OpenAI

اشتراک گذاری

نویسنده و خبرنگار

علی‌بابا از هوش مصنوعی تصویرساز Qwen-Image رونمایی کرد + عکس

بات‌های Perplexity مخفیانه درحال استفاده از محتوای سایت‌ها هستند

محققان از هوش مصنوعی برای کشف قوانین جدید فیزیک استفاده کردند

دیدگاهتان را بنویسید لغو پاسخ

دنبال چیزی می گردی؟

دسته‌ها

نوشته‌های تازه

برچسب‌ها

آخرین پست ها

درباره ما

برترین‌فا رسانه‌ای که برای نیاز جامعه شکل گرفته است و هدف آن تبدیل شدن به جامع‌ترین رسانه فارسی است.

آخرین پست ها

دسترسی سریع

دسته بندی ها