چند روز قبل OpenAI از مدلهای استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدلهای قبلی این شرکت پیشرفت کردهاند. البته طبق گزارشهای جدید این مدلها هنوز دچار توهم میشوند؛ یعنی چیزهایی میگویند که واقعیت ندارد.
براساس گزارش تککرانچ، 2 مدل استدلالگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تستهای OpenAI، این 2 مدل استدلالگر بیشتر از مدلهای استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدلهای معمولی OpenAI مانند GPT-4o توهم ایجاد میکنند.
درکل توهمات یکی از بزرگترین مسائل هوش مصنوعی است که برطرفکردن آنها بسیار دشوار است. بااینحال مدلهای جدید کمی در بخش توهم بهبود مییابند و کمتر از مدل قبلی خود دچار توهم میشوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدلهای هوش مصنوعی جدید OpenAI
نکته نگرانکنندهتر این است که OpenAI واقعاً نمیداند چرا این اتفاق میافتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini مینویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدلهای استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینهها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجاییکه آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همانقدر که ادعاهای دقیقتری میکنند، ادعاهای نادرست و متوهمتری نیز ارائه میدهند.
OpenAI میگوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد میکند. این تقریباً دو برابر میزان توهم مدلهای استدلالگر قبلی o1 و o3-mini است که بهترتیب امتیاز بنچمارک آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدلها کمک کند به ایدههای جالبی برسند و خلاق باشند اما این امر برای کسبوکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکلساز است. یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، داشتن قابلیت جستجوی وب مدلهاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارکهای سنجش دقت) به دست آورد.