
طبق بنچمارک جدید دیپمایند، حتی پیشرفتهترین مدلهای هوش مصنوعی جهان نیز در زمینه دقت و صحت اطلاعات امتیاز ۶۹ درصد را به دست آوردند.
اگر فکر میکنید هر چه هوش مصنوعی میگوید درست است، سخت در اشتباهید. دیپمایند گوگل در تحقیقی عملکرد چتباتهای امروزی را زیر ذرهبین برده و نتایج اصلاً جالب نیست. طبق بنچمارک جدید محققان، حتی پیشرفتهترین مدلهای هوش مصنوعی جهان نیز نمیتوانند از مرز دقت ۷۰ درصد عبور کنند. این امتیاز را میتوان اینطور تفسیر کرد که از هر سه پاسخی که از هوش مصنوعی میگیرید، یکی ممکن است غلط باشد، حتی اگر با اعتمادبهنفس کامل بیان شود.
برخلاف تستهای معمولی که توانایی حل مسئله را میسنجند، بنچمارک FACTS گوگل دیپمایند منحصراً روی دقت و صحت اطلاعات تمرکز دارد. این تست مدلها را در چهار زمینه محک میزند:
نتایج نشان میدهد که فاصله زیادی بین ادعا و واقعیت وجود دارد. در صدر لیست مدل جمینای ۳ پرو گوگل قرار دارد که با امتیاز کلی ۶۹ درصد دقیقترین مدل فعلی است. رتبهبندی سایر رقبا را در تصویر پایین میبینید:

پاشنه آشیل تمام مدلها بخش چندوجهی بود؛ جایی که دقت اغلب زیر ۵۰ درصد است. این موضوع بسیار نگرانکننده است، زیرا کاربران ممکن است از هوش مصنوعی بخواهند یک نمودار مالی یا پزشکی را تحلیل کند. اگر چتبات عدد اشتباهی را از یک گزارش بیرون بکشد یا نمودار فروش را برعکس تفسیر کند، عواقب آن در حوزههایی مثل بورس، حقوق و سلامت میتواند فاجعهبار باشد.
درکل تحقیق گوگل میگوید به چتباتهای هوش مصنوعی اعتماد کورکورانه نداشته باشید. اگر خبرنگاری در یک رسانه ۶۹ درصد مواقع راست بگوید، فوراً اخراج میشود؛ اما ما همین سطح خطا را از هوش مصنوعی میپذیریم. در شغلهای که با اطلاعات مهمی سروکار دارند (مثل وکلا و پزشکان) استفاده از چتبات بدون نظارت انسانی میتواند بسیار خطرناک و زیانبار باشد.
پاسخ ها