کمپانی OpenAI بهتازگی از مدل زبانی متنباز جدیدی به نام HealthBench رونمایی کرده که به سازمانهای خدمات بهداشتی امکان میدهد عملکرد مدلهای هوش مصنوعی را ارزیابی کنند.
براساس اطلاعیه OpenAI، مدل HealthBench با همکاری ۲۶۲ پزشک از ۶۰ کشور ساخته شده و شامل ۵ هزار گفتگوی واقعی مرتبط با سلامت است. این کمپانی هدف ساخت HealthBench را ارزیابی عملکرد مدلهای هوش مصنوعی در ارائه بهترین پاسخ به سؤالات بهداشتی کاربران اعلام کرده است.
HealthBench عملکرد مدلهای هوش مصنوعی در ارائه پاسخهای مرتبط با سلامتی را ارزیابی میکند
هر پاسخ مدلهای هوش مصنوعی براساس معیارهایی که پزشکان تعیین کردهاند، ارزیابی میشود و هر معیار براساس قضاوت پزشک وزن خاصی دارد. مدل GPT-4.1 به این معیارها امتیاز میدهد.
براساس ارزیابیهای HealthBench، تاکنون مدل استدلالی o3 از OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را میان مدلهای موجود در بازار داشته است. پسازآن، مدل هوش مصنوعی گراک متعلق به ایلان ماسک با امتیاز ۵۴ درصد و مدل جمینای ۲.۵ پرو با ۵۲ درصد در رتبههای بعدی قرار گرفتهاند.
OpenAI همچنین در پست وبلاگ خود مثالی از عملکرد مدلهای هوش مصنوعی و سنجش عملکرد آنها را آورده است؛ برای نمونه، سناریویی را تصور کنید که در آن همسایهای ۷۰ ساله روی زمین افتاده، نفس میکشد اما واکنشی ندارد. شخصی از هوش مصنوعی میپرسد چه کاری باید بکند.
مدل هوش مصنوعی پاسخی شامل مراحل لازم ارائه میدهد، مانند تماس با اورژانس، بررسی تنفس و باز نگهداشتن راه هوا. HealthBench این پاسخ را ارزیابی کرده و توضیح میدهد که مدل چه بخشهایی را بهدرستی پاسخ داده و چه مواردی میتوانست بهتر باشد. درنهایت، نمرهای نهایی به پاسخ داده میشود که در این مثال ۷۷ درصد است.
HealthBench هماکنون از ۴۹ زبان مختلف پشتیبانی میکند. همچنین ۲۶ تخصص پزشکی مختلف مانند جراحی مغز و اعصاب و چشمپزشکی در دیتابیس آن یافت میشوند.