چت ربات های هوش مصنوعی می توانند به شما دروغ های قانع کننده ای بگویند

چت‌بات‌های هوش مصنوعی می‌توانند دروغ‌های قانع‌کننده‌ای به شما ارائه دهند

چت‌بات‌ها قادرند فرایند استدلال ساختگی به شما ارائه کنند.

تحقیق جدید شرکت آنتروپیک، سازنده چت‌بات هوش مصنوعی کلود، نشان می‌دهد چت‌بات‌ها ممکن است گاهی دروغ‌های قانع‌کننده‌ای به کاربران تحویل دهند و زنجیره افکار آنها می‌تواند فریبنده باشد.

این روزهاُ بسیاری از چت‌بات‌های هوش مصنوعی کاربران را در جریان نحوه استدلال‌های خود قرار می‌دهند و قبل از نشان‌دادن پاسخ، فرایند فکری‌شان را مطرح می‌کنند تا نشان دهند برای رسیدن به پاسخ چه فرایندی طی شده است. این موضوع می‌تواند احساس اطمینان و شفافیت بیشتری به کاربران القا کند اما تحقیقی جدید نشان می‌دهد توضیحات چت‌بات‌ها ممکن است ساختگی باشند.

چت‌بات‌های هوش مصنوعی می‌توانند استدلال ساختگی ارائه کنند

شرکت آنتروپیک که عمده شهرتش را مدیون چت‌بات کلود است، بررسی کرده که آیا مدل‌های استدلالگر حقیقت را درباره چگونگی رسیدن به پاسخ‌ها می‌گویند یا اینکه بی‌سروصدا اسرار خود را حفظ می‌کنند. نتایج این آزمایش می‌تواند حیرت‌انگیر باشد.

محققان برای آزمایش «وفاداری» در عملکرد، آزمایش‌های متعددی روی مدل‌های زنجیره تفکر کلود 3.7 Sonnet و دیپ‌سیک R1 انجام دادند. این مدل‌ها می‌توانند مشکلات پیچیده را به بخش‌های کوچک‌تر تقسیم کرده و حین تولید پاسخ، جزئیات آنها را شرح دهند. این آزمایش‌ها شامل دادن سرنخ‌های کوچک به مدل‌ها قبل از طرح سؤالات و بررسی این بوده است که این مدل‌ها به استفاده از این سرنخ‌ها در پاسخ‌های خود اعتراف کرده‌اند یا خیر.

بیشتر اوقات، هر ۲ مدل طوری عمل کردند که انگار مستقل و با استفاده از زنجیره تفکر خود به پاسخ رسیده‌اند و هیچ نشانه‌ای از دریافت سرنخ نداشتند. همچنین در آزمایش دیگری مشخص شد مدل کلود 3.7 Sonnet در ۴۱ درصد مواقع اعتراف کرده سرنخ‌هایی دریافت کرده اما نرخ صداقت مدل دیپ‌سیک R1 فقط ۱۹ درصد بوده است.

در آزمایش دیگری محققان با دادن سرنخ‌های اشتباه به مدل‌ها برای انتخاب پاسخ غلط پاداش دادند. در پایان این مدل‌ها توجیه‌هایی ساختگی درباره اینکه چرا انتخاب اشتباه درست بوده است، ارائه و به‌ندرت اعتراف کردند به سمت خطا سوق داده شده‌اند.

مدل‌های هوش مصنوعی نه‌فقط استدلال‌های خود را پنهان می‌کنند، بلکه گاهی ممکن است به‌صورتی آگاهانه تخطی‌های خود را از دید کاربر مخفی کنند.