محققان انگلیسی: سیستم امنیتی چت ربات های هوش مصنوعی را می توان به راحتی دور زد

محققان بریتانیایی: سیستم امنیتی چت‌بات‌های هوش مصنوعی را می‌توان به‌راحتی دور زد

محققان یک مؤسسه بریتانیایی متوجه شدند همه مدل‌های آزمایش‌شده در برابر تلاش برای ارائه پاسخ‌های ضربه‌زننده، بسیار آسیب‌پذیر هستند.

محققان دولت بریتانیا ادعا می‌کنند چت‌بات‌های هوش مصنوعی بسیار آسیب‌پذیر هستند و می‌توان از راه‌های مختلف، امنیت آنها را به‌خطر انداخت و سیستم‌های امنیتی به‌کار گرفته‌شده برای مدل‌های مختلف هوش مصنوعی را دور زد.

به‌گزارش گاردین، محققان دولتی متوجه شدند همه مدل‌های آزمایش‌شده در برابر تلاش برای ارائه پاسخ‌های ضربه‌زننده، بسیار آسیب‌پذیر هستند.

مؤسسه ایمنی هوش مصنوعی بریتانیا (AISI) می‌گوید سیستم‌هایی را آزمایش کرده و متوجه شده است که چت‌بات‌های مبتنی بر هوش مصنوعی در برابر جیلبریک «بسیار آسیب‌پذیر» هستند. این مؤسسه اضافه می‌کند هر پنج مدل زبان بزرگ (LLM) موجود را آزمایش کرده است. محققان می‌گویند فناوری زیربنای چت‌بات‌ها ایمن نیست و سیستم‌های محافظتی آن‌ها را با سهولت نسبی و بدون تلاش زیاد، می‌توان دور زد.

مدل‌های مختلف هوش مصنوعی تا چه اندازه ایمن هستند؟

مؤسسه ایمنی هوش مصنوعی بریتانیا (AISI) می‌گوید: «همه LLMهای آزمایش‌شده به‌شدت در برابر جیلبریک آسیب‌پذیر هستند و برخی از آن‌ها حتی بدون تلاش شدید و نیاز به روش‌های تخصصی، به‌راحتی غیرایمن می‌شوند.»

این مؤسسه می‌گوید می‌توان با حملات «نسبتاً ساده»، حفاظت‌ها دور زد. به‌عنوان مثال، به سیستم دستور داد تا پاسخ خود را با عباراتی مانند «مطمئناً، خوشحالم که کمک می‌کنم» آغاز کند.

تیم AISI موضوعات مختلفی را مورد بررسی قرار داده است. در بررسی‌های انجام‌شده از چت‌بات‌ها خواسته شد تا مطلبی درباره موضوعات مختلف، از متقاعدکردن یک نفر برای خودکشی تا موضوعاتی مانند تهیه متن ایمیل درخواست نامشروع از همکار خانم، بنویسد.

همانطور که گفته شد در آزمایش‌ها، همه مدل‌های آزمایش‌شده در برابر تلاش برای ارائه پاسخ‌های ضربه‌زننده، بسیار آسیب‌پذیر بودند. این درحالی است که توسعه‌دهنده مدل GPT-4 گفته است که اجازه نمی‌دهد از این فناوری برای تولید محتوای نفرت‌انگیز، آزاردهنده، خشونت‌آمیز و ضربه‌زننده استفاده شود.