معیار جدید گوگل: یک سوم پاسخ‌های هوش مصنوعی ممکن است اشتباه باشد

بنچمارک جدید گوگل: یک‌سوم پاسخ‌های هوش مصنوعی می‌تواند غلط باشد

طبق بنچمارک جدید دیپ‌مایند، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز در زمینه دقت و صحت اطلاعات امتیاز ۶۹ درصد را به دست آوردند.

اگر فکر می‌کنید هر چه هوش مصنوعی می‌گوید درست است، سخت در اشتباهید. دیپ‌مایند گوگل در تحقیقی عملکرد چت‌بات‌های امروزی را زیر ذره‌بین برده و نتایج اصلاً جالب نیست. طبق بنچمارک جدید محققان، حتی پیشرفته‌ترین مدل‌های هوش مصنوعی جهان نیز نمی‌توانند از مرز دقت ۷۰ درصد عبور کنند. این امتیاز را می‌توان اینطور تفسیر کرد که از هر سه پاسخی که از هوش مصنوعی می‌گیرید، یکی ممکن است غلط باشد، حتی اگر با اعتماد‌به‌نفس کامل بیان شود.

برخلاف تست‌های معمولی که توانایی حل مسئله را می‌سنجند، بنچمارک FACTS گوگل دیپ‌مایند منحصراً روی دقت و صحت اطلاعات تمرکز دارد. این تست مدل‌ها را در چهار زمینه محک می‌زند:

آیا مدل می‌تواند به سؤالات واقعی فقط با تکیه بر دانش درونی خود پاسخ دهد؟
آیا مدل می‌تواند اطلاعات دقیق را از اینترنت پیدا کند؟
آیا مدل فقط از متنی که به او داده شده استفاده می‌کند یا اطلاعات غلط و خیالی اضافه می‌کند؟
آیا نمودارها، تصاویر و دیاگرام‌ها را درست می‌خواند؟

تحقیق دیپ‌مایند گوگل درباره دقت پاسخ‌های هوش مصنوعی

نتایج نشان می‌دهد که فاصله زیادی بین ادعا و واقعیت وجود دارد. در صدر لیست مدل جمینای ۳ پرو گوگل قرار دارد که با امتیاز کلی ۶۹ درصد دقیق‌ترین مدل فعلی است. رتبه‌بندی سایر رقبا را در تصویر پایین می‌بینید:

پاشنه آشیل تمام مدل‌ها بخش چندوجهی بود؛ جایی که دقت اغلب زیر ۵۰ درصد است. این موضوع بسیار نگران‌کننده است، زیرا کاربران ممکن است از هوش مصنوعی بخواهند یک نمودار مالی یا پزشکی را تحلیل کند. اگر چت‌بات عدد اشتباهی را از یک گزارش بیرون بکشد یا نمودار فروش را برعکس تفسیر کند، عواقب آن در حوزه‌هایی مثل بورس، حقوق و سلامت می‌تواند فاجعه‌بار باشد.

درکل تحقیق گوگل می‌گوید به چت‌بات‌های هوش مصنوعی اعتماد کورکورانه نداشته باشید. اگر خبرنگاری در یک رسانه ۶۹ درصد مواقع راست بگوید، فوراً اخراج می‌شود؛ اما ما همین سطح خطا را از هوش مصنوعی می‌پذیریم. در شغل‌های که با اطلاعات مهمی سروکار دارند (مثل وکلا و پزشکان) استفاده از چت‌بات بدون نظارت انسانی می‌تواند بسیار خطرناک و زیان‌بار باشد.