صفحه اصلی > هوش مصنوعی : بایدو از مدل هوش مصنوعی PP-OCRv5 رونمایی کرد؛ متخصص متن‌خوانی

بایدو از مدل هوش مصنوعی PP-OCRv5 رونمایی کرد؛ متخصص متن‌خوانی

بایدو از مدل هوش مصنوعی PP-OCRv5 رونمایی کرد؛ متخصص متن‌خوانی

بایدو پس از معرفی مدل Ernie X1.1، حالا مدل جدید PP-OCRv5 را منتشر کرده است. PP-OCRv5 یک مدل تشخیص نوری حروف (OCR) است که هم‌اکنون از طریق Hugging Face در دسترس کاربران قرار دارد.

به گزارش گیزموچاینا، نکته‌ای که این مدل را از رقبا متمایز می‌کند توانایی بسیار خوب آن در خواندن متون است. همچنین این مدل سبک و کم حجم طراحی شده. یکی از ضعف‌های مدل‌های بزرگ بینایی زبان این است که بعضاً در انجام کار دقیق و جزئی مانند خواندن متن‌های ساختاریافته با مشکل مواجه می‌شوند. اما PP-OCRv5 می‌تواند چنین مشکلی را برای کاربران حل کند.

با قابلیت‌های مدل هوش مصنوعی PP-OCRv5 از بایدو آشنا شوید

مدل هوش مصنوعی PP-OCRv5 به طور خاص برای دور زدن این محدودیت‌ها طراحی شده است. این مدل در دو مرحله اصلی کار می‌کند، یعنی در ابتدا موقعیت متن را در تصویر پیدا می‌کند و سپس خود متن را می‌خواند.

این رویکرد به مدل کمک می‌کند تا مشخص کند متن دقیقاً در کجا قرار دارد. همچنین این روش برای استخراج داده‌ها از اسناد یا تحلیل فرم‌ها بسیار کاربردی است. مدل PP-OCRv5 فقط ۰.۰۷ میلیارد پارامتر دارد که در مقایسه با مدل‌های شناخته‌شده این حوزه بسیار کوچک است.

بایدو این مدل را روی سیستم‌های موبایل آزمایش و مشاهده کرده که می‌تواند بیش از ۳۷۰ کاراکتر در ثانیه روی پردازنده اینتل Xeon پردازش کند. این یعنی می‌توان این مدل را روی کامپیوترهای معمولی یا حتی دستگاه‌های لبه فناوری بدون نیاز به دیتاسنترهای بزرگ اجرا کرد.

بایدو PP-OCRv5 را در وظایف OCR با برخی مدل‌های شناخته‌شده مانند جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد خوبی از خود نشان دهد. همچنین این مدل می‌تواند هم متون چاپی و هم دست‌نویس را به‌خوبی پردازش کند و در مجموع از بیش از ۴۰ زبان پشتیبانی می‌کند.

بایدو این مدل را از طریق Hugging Face در دسترس همه قرار داده است و توسعه‌دهندگان می‌توانند به‌راحتی از آن استفاده کنند.

طراحان خلاقی و فرهنگ پیشرو در زبان فارسی ایجاد کرد. در این صورت می توان امید داشت که تمام و دشواری موجود در ارائه راهکارها و شرایط سخت تایپ به پایان رسد.
پست های مرتبط

سم آلتمن به دلیل چالش‌های ChatGPT شب‌ها راحت نمی‌خوابد

«سم آلتمن»، مدیرعامل OpenAI، در مصاحبه جدیدی اعتراف کرد که به دلیل…

۱۴۰۴-۰۶-۲۴

مالک رولینگ استون از گوگل به دلیل قابلیت AI Overviews شکایت کرد

شرکت Penske Media Corporation به‌عنوان مالک رولینگ استون و The Hollywood Reporter…

۱۴۰۴-۰۶-۲۴

مایکروسافت و OpenAI مرحله بعدی همکاری خود را اعلام کردند

مایکروسافت و OpenAI در بیانیه مشترکی اعلام کرده‌اند که یک تفاهم‌نامه غیرالزام‌آور…

۱۴۰۴-۰۶-۲۳

دیدگاهتان را بنویسید