بنیاد ویکیمدیا که نهاد پشتیبان ویکیپدیا است، برای مقابله با رباتهای هوش مصنوعی که بهطور مداوم اطلاعات این پلتفرم را استخراج میکنند، مجموعهای از دادهها را منتشر کرده که بهطور خاص برای آموزش مدلهای هوش مصنوعی طراحی شدهاند.
ویکیمدیا اعلام کرده با همکاری پلتفرم Kaggle (که تحت مالکیت گوگل قرار دارد و میزبان دادههای مرتبط با یادگیری ماشینی است)، نسخه بتای یک مجموعه داده که شامل محتوای ساختاریافته ویکیپدیا به زبانهای انگلیسی و فرانسوی میشود را منتشر کرده است.
کمک مجموعه داده ویکیپدیا به توسعهدهندگان هوش مصنوعی
طبق اعلام ویکیمدیا، این مجموعه داده با در نظر گرفتن نیازهای توسعهدهندگان هوش مصنوعی طراحی شده و دسترسی به اطلاعات قابلخواندن توسط ماشین برای آموزش، تنظیم دقیق، ارزیابی، تطبیق و تحلیل مدلهای هوش مصنوعی را آسانتر میکند.
این دادهها با مجوز آزاد منتشر شدهاند و شامل خلاصههای پژوهشی، توضیحات کوتاه، لینک تصاویر، دادههای اینفوباکس و بخشبندی مقالات میشود، اما ارجاعات و فایلهای غیردستنویس مانند فایلهای صوتی در آنها وجود ندارد.
بنیاد ویکیمدیا در بیانیه خود میگوید این دادهها که در قالب فایلهای JSON ارائه شدهاند، میتوانند جایگزین بهتری برای استخراج مستقیم و تجزیه متن خام مقالات باشند. استخراج داده توسط رباتها درحالحاضر فشار زیادی بر سرورهای ویکیپدیا وارد کرده، چرا که این رباتهای هوش مصنوعی بهطور گستردهای از پهنای باند آن استفاده میکنند.
پیشازاین نیز ویکیمدیا با شرکتهایی مانند گوگل و Internet Archive قراردادهایی برای اشتراکگذاری محتوا امضا کرده بود، اما همکاری با Kaggle میتواند دادههای ویکیپدیا را برای شرکتهای کوچکتر و پژوهشگران مستقل نیز در دسترستر قرار دهد.
«برندا فلین»، مدیر همکاریهای Kaggle، درباره این همکاری گفت:
«از اینکه میزبان دادههای بنیاد ویکیمدیا هستیم بسیار هیجانزدهایم. Kaggle با افتخار نقش خود را در حفظ دسترسی، بهرهوری و مفید بودن این دادهها ایفا خواهد کرد.»