سیستم SAFE دیپمایند پاسخهای طولانی تولیدشده توسط چتباتهای هوش مصنوعی را بررسی و صحتسنجی میکند.
هوش مصنوعی مولد بهرغم پیشرفتهای زیادی که تاکنون داشته است، همچنان نقصهایی دارد. یکی از رفتارهای مورد انتقاد چتباتهای هوش مصنوعی این است که در برخی موارد، پاسخی بهظاهر معقول میدهند، ولی درواقع اطلاعات آنها درست نیست؛ در این مواقع به اصطلاح هوش مصنوعی دچار توهم میشود. حالا شرکت دیپمایند گوگل راهحلی برای کاهش این نقص ایجاد کرده است.
براساس پیشنویس مقاله دیپمایند و دانشگاه استنفورد، محققان یک سیستم به نام Search Augmented Factuality Evaluator یا SAFE ارائه کردهاند که پاسخهای طولانی تولیدشده توسط چتباتهای هوش مصنوعی را بررسی و صحتسنجی میکند.
سیستم SAFE دیپمایند پاسخهای هوش مصنوعی را در چهار مرحله تجزیهوتحلیل، پردازش و ارزیابی میکند تا صحت و واقعیبودن آنها را بسنجد. ابتدا، SAFE پاسخ هوش مصنوعی را به گزاره یا فکتهای مجزا تقسیم، سپس پس از بازبینی، آنها را با نتایج جستجوی گوگل مقایسه میکند. این سیستم همچنین ارتباط هر گزاره را با سؤال اصلی میسنجد.
برای ارزیابی عملکرد SAFE، محققان یک دیتاسنتر به نام LongFact ایجاد کردند که مجموعهای از تقریباً 16 هزار گزاره است. محققان برای آزمایش این سیستم از 13 مدل زبانی بزرگ از چهار خانواده مختلف که شامل GPT، جمینای، کلود و PaLM-2 بود، استفاده کردند.
در 72 درصد موارد، سیستم SAFE نتایجی مشابه با حاشیهنویسان و مصححهای انسانی ارائه کرد. در مواردی که بین این سیستم و موارد انسانی توافق نبود، SAFE در 76 درصد موارد به درستی عمل کرد. علاوهبراین، محققان ادعا میکنند که استفاده از این سیستم 20 برابر ارزانتر از مصححهای انسانی است؛ بنابراین میتوان از این سیستم بهعنوان یک راهحل مقرونبهصرفه در مقیاس بزرگ استفاده کرد.
پاسخ ها