افشای ۱۲ هزار کلید API محرمانه در داده‌های آموزشی هوش مصنوعی

۱۵ اسفند ۱۴۰۳

گزارش‌ها نشان می‌دهند که بیش از ۱۲ هزار کلید و رمز عبور API محرمانه، در مجموعه داده‌های Common Crawl، که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شود، شناسایی شده است.

مجموعه‌ی Common Crawl، یک سازمان غیرانتفاعی است که منبعی متن‌باز از داده‌های وب را از سال ۲۰۰۸ جمع‌آوری کرده و به‌صورت رایگان در اختیار عموم قرار داده است.

به دلیل حجم گسترده این مجموعه داده، بسیاری از پروژه‌های هوش مصنوعی، از جمله OpenAI ،DeepSeek ،Google ،Meta و Anthropic؛ ممکن است برای آموزش مدل‌های زبان بزرگ (LLM) به این آرشیو متکی باشند.

محققان امنیتی با بررسی ۴۰۰ ترابایت داده از ۲.۶۷ میلیارد صفحه وب در آرشیو دسامبر ۲۰۲۴، این کلیدهای معتبر API را شناسایی کرده‌اند. این کلیدها به‌درستی احراز هویت شده و در کدها ذخیره شده‌اند، که نشان می‌دهد مدل‌های زبان بزرگ ممکن است با کدهای ناامن آموزش دیده باشند.

اشتباه اصلی توسعه‌دهندگان Common Crawl این بوده که به‌جای استفاده از متغیرهای محیطی سمت سرور برای امنیت بیشتر، کلیدهای API را در فرم‌های HTML و اسکریپت‌های جاوا اسکریپت قرار داده‌اند.

مهاجمان سایبری می‌توانند از این کلیدها برای فعالیت‌های مخربی مانند راه‌اندازی کمپین‌های فیشینگ، جعل برند و استخراج داده‌های حساس استفاده کنند.

محققان پس از کشف این کلیدهای افشا شده، با شرکت‌های تحت تأثیر تماس گرفته و آن‌ها را از این مشکل آگاه کرده‌اند.

توضیحات بیشتر:

- Nearly 12,000 API keys and passwords found in AI training dataset

نقض اطلاعات