شب گذشته، سم آلتمن، مدیرعامل شرکت OpenAI، در یک رویداد آنلاین از جدیدترین مدلهای هوش مصنوعی استدلالی این شرکت با نامهای O3 و O3-Mini رونمایی کرد. این مدلها بر اساس مدلهای قبلی این شرکت، O1، که در اوایل سال جاری منتشر شده بودند، توسعه یافتهاند. هرچند این مدلها هنوز به طور رسمی عرضه عمومی نشدهاند، OpenAI اعلام کرده که آنها را برای آزمایشهای ایمنی عمومی و استفاده محدود توسط محققان از امروز در دسترس قرار خواهد داد.
ویژگی برجسته: زنجیره تفکر خصوصی
مدلهای O3 از مفهومی به نام “زنجیره تفکر خصوصی” بهره میبرند. این قابلیت به مدل اجازه میدهد که قبل از ارائه پاسخ، مکث کند و از یک فرآیند برنامهریزی داخلی بهره ببرد. این فناوری که OpenAI آن را “استدلال شبیهسازیشده” (Simulated Reasoning یا SR) نامیده، یک گام فراتر از مدلهای زبانی بزرگ (LLM) سنتی است. به گفته OpenAI، انتخاب نام O3 به جای O2 به دلیل جلوگیری از تداخل احتمالی علامت تجاری با شرکت مخابراتی بریتانیایی O2 صورت گرفته است.
سم آلتمن در جریان پخش زنده رویداد، با شوخی درباره نامگذاری محصولات OpenAI گفت:
“ما در OpenAI به سنت نامگذاریهای نهچندان خوب خود پایبند هستیم؛ نام این مدل O3 خواهد بود.”
عملکرد بیسابقه در بنچمارکها
مدل O3 موفق به دستیابی به رکوردی بیسابقه در بنچمارک ARC-AGI شد؛ بنچمارکی که از زمان ایجادش در سال ۲۰۱۹ شکستناپذیر بوده است. این مدل در آزمایشهای قدرت محاسباتی پایین، امتیاز ۷۵.۷ درصد و در آزمایشهای قدرت محاسباتی بالا، امتیاز ۸۷.۵ درصد را به دست آورد. این نتایج حتی با عملکرد انسان، که آستانه آن ۸۵ درصد است، قابل مقایسه است.
در بنچمارک GPQA Diamond، که شامل سوالات پیچیدهای در حوزههای زیستشناسی، فیزیک و شیمی در سطح تحصیلات تکمیلی است، O3 به امتیاز ۸۷.۷ درصد دست یافت. همچنین، در بنچمارک ریاضیات Frontier توسط EpochAI، این مدل موفق به حل ۲۵.۲ درصد از مسائل شد؛ در حالی که سایر مدلها تاکنون از مرز ۲ درصد فراتر نرفتهاند.
رئیس بنیاد جایزه ARC در این رویداد اظهار داشت:
“این نتایج باعث میشود که دیدگاه خود را نسبت به تواناییهای هوش مصنوعی تغییر دهیم.”
O3-Mini: زمان تفکر تطبیقی
گونهی کوچکتر این مدل، یعنی O3-Mini، نیز با ویژگی منحصربهفرد “زمان تفکر تطبیقی” معرفی شد. این قابلیت به مدل امکان میدهد تا بر اساس نیاز، با سرعتهای پردازش پایین، متوسط و بالا کار کند. تنظیمات محاسباتی بالاتر، به گفته OpenAI، نتایج بهتری ارائه میدهد. O3-Mini همچنین در بنچمارک Codeforces عملکرد بهتری نسبت به مدل O1 داشته است.
رقابت در دنیای مدلهای SR
اعلام این مدلهای جدید در حالی صورت میگیرد که سایر شرکتهای بزرگ نیز به دنبال توسعه مدلهای استدلال شبیهسازیشده خود هستند. به عنوان مثال:
- گوگل اخیراً از مدل Gemini 2.0 Flash Thinking Experimental رونمایی کرده است.
- DeepSeek مدل جدیدی به نام DeepSeek-R1 عرضه کرده است.
- تیم Qwen متعلق به علیبابا نیز مدل QwQ را معرفی کرده که به عنوان اولین جایگزین متنباز برای O1 شناخته میشود.
تحولی در معماری مدلهای هوش مصنوعی
این مدلهای جدید نه تنها بر پایه LLMهای سنتی طراحی شدهاند، بلکه به گونهای تنظیم شدهاند که بتوانند فرآیند زنجیره تفکر تکراری را اجرا کنند. این فرآیند به مدل امکان میدهد که نتایج خود را مورد بازبینی قرار داده و استدلالها را به شیوهای مبتنی بر جستجوی فراگیر شبیهسازی کند.
زمان عرضه
OpenAI اعلام کرده که ابتدا مدلهای جدید را برای آزمایشهای ایمنی در اختیار محققان قرار خواهد داد. طبق برنامهریزیها، O3-Mini در اواخر ژانویه و مدل کامل O3 مدت کوتاهی پس از آن عرضه خواهند شد.
این پیشرفتها نشاندهندهی گامی مهم در جهت نزدیکتر شدن به هوش مصنوعی استدلالی و تقویت قابلیتهای آن در حوزههای مختلف است.