گزارشها نشان میدهند که بیش از ۱۲ هزار کلید و رمز عبور API محرمانه، در مجموعه دادههای Common Crawl، که برای آموزش مدلهای هوش مصنوعی استفاده میشود، شناسایی شده است.
مجموعهی Common Crawl، یک سازمان غیرانتفاعی است که منبعی متنباز از دادههای وب را از سال ۲۰۰۸ جمعآوری کرده و بهصورت رایگان در اختیار عموم قرار داده است.
به دلیل حجم گسترده این مجموعه داده، بسیاری از پروژههای هوش مصنوعی، از جمله OpenAI ،DeepSeek ،Google ،Meta و Anthropic؛ ممکن است برای آموزش مدلهای زبان بزرگ (LLM) به این آرشیو متکی باشند.
محققان امنیتی با بررسی ۴۰۰ ترابایت داده از ۲.۶۷ میلیارد صفحه وب در آرشیو دسامبر ۲۰۲۴، این کلیدهای معتبر API را شناسایی کردهاند. این کلیدها بهدرستی احراز هویت شده و در کدها ذخیره شدهاند، که نشان میدهد مدلهای زبان بزرگ ممکن است با کدهای ناامن آموزش دیده باشند.
اشتباه اصلی توسعهدهندگان Common Crawl این بوده که بهجای استفاده از متغیرهای محیطی سمت سرور برای امنیت بیشتر، کلیدهای API را در فرمهای HTML و اسکریپتهای جاوا اسکریپت قرار دادهاند.
مهاجمان سایبری میتوانند از این کلیدها برای فعالیتهای مخربی مانند راهاندازی کمپینهای فیشینگ، جعل برند و استخراج دادههای حساس استفاده کنند.
محققان پس از کشف این کلیدهای افشا شده، با شرکتهای تحت تأثیر تماس گرفته و آنها را از این مشکل آگاه کردهاند.
توضیحات بیشتر:
- Nearly 12,000 API keys and passwords found in AI training dataset