کشف یک آسیب پذیری جدید که اطلاعات شخصی کاربران را از یک ربات چت هوش مصنوعی استخراج می کند

کشف آسیب‌پذیری جدیدی که اطلاعات شخصی کاربران را از چت‌بات هوش مصنوعی استخراج می‌کند

در این حمله که Imprompter نام‌گرفته، دستور متنی کاربر به‌صورت نامحسوس برای دریافت اطلاعات شخصی کاربر تغییر پیدا می‌کند.

گروهی از محققان امنیتی «دانشگاه کالیفرنیا، سن‌دیگو» (UCSD) و «دانشگاه فناوری نانیانگ» سنگاپور حمله جدیدی به چت بات های هوش مصنوعی را کشف کرده‌اند که در آن به‌طور مخفیانه به یک مدل زبانی بزرگ (LLM) دستور داده می‌شود تا اطلاعات شخصی شما مانند نام، شماره‌ شناسایی، آدرس و ایمیل را جمع‌آوری کند و آن‌ها را برای یک هکر ارسال کند.

محققان برای حمله مذکور نام Imprompter را انتخاب کرده‌اند که با یک الگوریتم، دستورداده‌شده به LLM را به مجموعه‌ای پنهان از دستورالعمل‌های مخرب برای جمع‌آوری اطلاعات شخصی کاربران تبدیل می‌کند. سپس اطلاعات کاربران بدون اینکه مشخص شود به دامنه‌ای که متعلق به یک هکر است، فرستاده می‌شود.

«شیائوهان فو»، نویسنده اصلی این تحقیق و دانشجوی دکترای علوم کامپیوتر در UCSD، می‌گوید:

«تأثیر اصلی این دستور خاص دستکاری LLM برای استخراج اطلاعات شخصی از مکالمه و ارسال آن‌ها به مهاجم است.»

نحوه جمع‌آوری اطلاعات شخصی از چت بات هوش مصنوعی

حمله Imprompter همان‌طور که در تصاویر بالا قابل مشاهده است، با یک دستور طبیعی آغاز می‌شود (تصویر سمت راست) که به هوش مصنوعی می‌گوید تمام اطلاعات شخصی مانند نام را از مکالمه کاربر استخراج کند. سپس الگوریتم محققان یک نسخه مبهم از دستور ایجاد می‌کند (تصویر سمت چپ) که هرچند برای کاربر مانند یک سری کاراکترهای نامشخص به‌نظر می‌رسد، اما برای LLM همان معنای دستور اصلی را دارد.

آن‌ها حمله کشف‌شده خود را روی دو LLM آزمایش کردند: LeChat از شرکت هوش مصنوعی فرانسوی Mistral AI و مدل زبانی بزرگ چینی ChatGLM. در هر دو مورد، محققان متوجه شدند که می‌توان به‌طور مخفیانه اطلاعات شخصی را از گفتگوها استخراج کرد و این کار با «80 درصد میزان موفقیت» انجام می‌شود.

به‌دنبال انتشار این گزارش، Mistral AI به WIRED اعلام کرد که آسیب‌پذیری مربوطه را برطرف کرده است و محققان نیز تأیید کرده‌اند که یکی از عملکردهای چت آن غیرفعال شده است. ChatGLM نیز در بیانیه‌ای گفته که امنیت مدل زبانی بزرگ خود را جدی می‌گیرد، اما به این آسیب‌پذیری اشاره‌ای نکرده است.