ربات چت ChatGPT اکنون قابل اعتمادتر است، اما فریب دادن آن آسان تر است

چت‌بات ChatGPT اکنون قابل‌اعتمادتر است، اما ساده‌تر فریب می‌خورد

چت جی پی تی،اخبار علمی،خبرهای علمی

تحقیقات مایکروسافت نشان می‌دهد کاربران می‌توانند GPT-4 را برای انتشار نتایج مغرضانه و افشای اطلاعات خصوصی، فریب دهند.

به گزارش زومیت، براساس تحقیقاتی که مایکروسافت انجام داده، مدل زبان بزرگ GPT-4 شرکت OpenAI نسبت‌به GPT-3.5 قابل‌اعتمادتر است اما درمقابل فریب و سوگیری نیز آسیب‌پذیرتر است.

مقاله‌ی جدید نشان می‌دهد محققان دانشگاه ایلینویز، دانشگاه استنفورد، دانشگاه کالیفرنیا، دانشگاه برکلی، مرکز ایمنی هوش مصنوعی و مرکز تحقیقات مایکروسافت، GPT-4 را قابل‌اعتمادتر از نسخه‌ی قبلی این مدل می‌دانند. به بیان دیگر، آن‌ها متوجه شدند مدل هوش مصنوعی مذکور در محافظت از اطلاعات خصوصی، اجتناب از ارائه‌ی پاسخ‌های نامرتبط و جانب‌دارانه و همچنین مقاومت دربرابر حملات هکرها، بهتر عمل می‌کند.

ازطرف دیگر GPT-4 می‌تواند اقدامات امنیتی را نادیده بگیرد و درنتیجه اطلاعات شخصی و تاریخچه‌ی مکالمات افراد را فاش کند. محققان دریافتند امکان دورزدن لایه‌های محافظتی این مدل هوش مصنوعی وجود دارد زیرا GPT-4 اطلاعات گمراه‌کننده را با دقت بیشتری دنبال می‌کند.

تیم تحقیقاتی اعلام کرده آسیب‌پذیری‌های مختلف در محصولات مبتنی‌بر GPT-4 ازجمله خدمات و نرم‌افزارهای مایکروسافت و ChatGPT شناسایی نشده‌اند.

محققان برای سنجش قابلیت اعتماد GPT-4، نتایج تحقیقات خود را به چند بخش ازجمله پاسخ‌های غیرمرتبط، کلیشه‌ها، حریم خصوصی، اخلاق ماشینی، انصاف و قدرت در مقاومت دربرابر حمله‌های خصمانه، تقسیم کردند.

محققان در آزمایش خود ابتدا GPT 3.5 و GPT-4 را با استفاده از روش‌های استانداردی بررسی کردند که شامل استفاده از کلمات ممنوعه بود. در مرحله‌ی بعد از دستورالعمل‌های طراحی‌شده برای اعمال فشار به مدل و شکستن محدودیت‌های خط‌مشی محتوای آن استفاده شد. تیم تحقیقاتی درنهایت تلاش‌هایی برای فریب مدل انجام دادند تا مشخص شود آیا چارچوب محافظتی آن حفظ می‌شود یا خیر.

محققان می‌گویند: هدف ما تشویق جامعه‌ی تحقیقاتی است تا از آزمایش‌های ما بهره ببرند و کارهای جدیدی براساس آن انجام دهند؛ زیرا این‌کار به‌طور بالقوه از اقدامات شرورانه که از آسیب‌پذیری‌ها سؤاستفاده می‌کنند، جلوگیری خواهد کرد. ارزیابی قابلیت اعتماد مدل‌های هوش مصنوعی، فقط نقطه‌ی شروع است و امیدواریم با همکاری دیگران در یافته‌های خود به ایجاد مدل‌های قدرتمندتر و قابل‌اعتمادتر در آینده کمک کنیم.

تیم تحقیقاتی، معیارهای خود را برای آزمایش قابلیت اطمینان مدل‌های هوش مصنوعی منتشر کرد تا دیگران بتوانند از یافته‌های آن‌ها در تحقیقات آینده استفاده کنند.

توسعه‌دهندگان معمولاً چندین درخواست مختلف را به مدل‌های هوش مصنوعی مثل GPT-4 ارائه می‌دهند تا مشخص شود آیا نتایج ناخواسته ازطرف این مدل‌ها ارائه می‌شود یا خیر. البته سم آلتمن پس‌از معرفی GPT-4 اعلام کرد این مدل هوش مصنوعی همچنان نقص‌هایی دارد.

کمیسون تجارت فدرال (FTC) پس‌از معرفی GPT-4، تحقیقات درمورد OpenAI را با هدف کشف آسیب‌های احتمالی مثل انتشار اطلاعات نادرست که می‌تواند مصرف‌کنندگان را درمعرض خطر قرار دهد، آغاز کرده است.