هشدار امنیتی: مهاجمان می‌توانند به حافظه چت‌جی‌پی‌تی نفوذ کنند

۱۶ آبان ۱۴۰۴

پژوهشگران امنیت سایبری مجموعه‌ای از آسیب‌پذیری‌های نگران‌کننده را در نسخه‌های GPT-4o و GPT-5 از چت‌جی‌پی‌تی کشف کرده‌اند که می‌تواند به مهاجمان امکان دهد اطلاعات شخصی کاربران را از حافظه و تاریخچه گفتگوها بدون اطلاع آن‌ها استخراج کنند.

این تحقیقات که توسط شرکت Tenable انجام شده، هفت تکنیک مختلف برای بهره‌برداری از این آسیب‌پذیری‌ها را معرفی می‌کند که از جمله شامل حملات تزریق غیرمستقیم دستور (Indirect Prompt Injection) است؛ حملاتی که در آن مهاجم با طراحی محتوای مخرب، رفتار هوش مصنوعی را به‌گونه‌ای تغییر می‌دهد که اقدامات ناخواسته یا حتی مخرب انجام دهد.

برخی از تکنیک‌های افشا‌شده عبارتند از:

  • تزریق دستور از طریق صفحات وب معتبر: مهاجم با قرار دادن کد مخرب در بخش نظرات یک وب‌سایت، چت‌جی‌پی‌تی را وادار می‌کند هنگام خلاصه‌سازی محتوا، آن کد را اجرا کند.
  • تزریق بدون کلیک در جست‌وجوها: حتی فقط پرسیدن درباره یک وب‌سایت می‌تواند کافی باشد تا دستور مخرب قبلا فهرست‌شده از سوی موتور جست‌وجو اجرا شود.
  • اجرای خودکار دستور از طریق لینک: ساخت لینک‌هایی با پارامترهایی که به‌صورت خودکار در چت‌جی‌پی‌تی اجرا می‌شوند.
  • دور زدن مکانیسم‌های ایمنی با لینک‌های تبلیغاتی بینگ: استفاده از دامنه‌های تایید‌شده برای پنهان کردن آدرس‌های مخرب.
  • آلوده‌سازی حافظه کاربر: درج دستورهای مخرب در محتوای وب که پس از مرور توسط کاربر در حافظه چت‌جی‌پی‌تی ذخیره می‌شود.

در کنار این یافته‌ها، تحقیقات دیگری نیز از روش‌های مشابه در سایر ابزارهای هوش مصنوعی مانند «کلاد» و کوپایلوت خبر داده‌اند. برای مثال، حمله‌ای به نام PromptJacking در کلاد به مهاجمان امکان می‌دهد کد از راه دور اجرا کنند یا از طریق CamoLeak در کوپایلوت، داده‌های محرمانه را از مخازن خصوصی گیت‌هاب خارج کنند.

به‌گفته Tenable، از آن‌جا که مدل‌های زبانی بزرگ توانایی تشخیص تفاوت میان دستور واقعی کاربر و محتوای آلوده را ندارند، خطر سوءاستفاده از آن‌ها بالا باقی خواهد ماند. این شرکت هشدار داده است که مکانیسم‌های امنیتی موجود برای مقابله با تزریق دستور کافی نیستند و احتمال رفع کامل این آسیب‌پذیری‌ها در آینده نزدیک بعید است.

این هشدارها در حالی منتشر شده که پژوهشگران دانشگاه‌های آمریکا نشان داده‌اند مدل‌هایی که با داده‌های کم‌کیفیت اینترنت آموزش می‌بینند، دچار «فساد شناختی» می‌شوند. همچنین پژوهشی دیگر نشان می‌دهد با تنها ۲۵۰ سند آلوده می‌توان مدل‌های هوش مصنوعی را دستکاری کرد؛ واقعیتی که امکان اجرای حملات «مسموم‌سازی داده» (Data Poisoning) را برای مهاجمان بسیار ساده‌تر می‌کند.

در نهایت، یافته‌های دانشگاه استنفورد حاکی از آن است که رقابت در بازار می‌تواند منجر به تولید مدل‌هایی شود که اگرچه از نظر عملکرد موفق‌اند، اما به قیمت کاهش ایمنی و گسترش اطلاعات گمراه‌کننده عمل می‌کنند.

توضیحات بیشتر:

Researchers Find ChatGPT Vulnerabilities That Let Attackers Trick AI Into Leaking Data