پژوهشگران دریافتهاند که هوش مصنوعی جمینای میتواند با استفاده از روشی نوین به نام Fun-Tuning خود را هک کند، مسئلهای که چالشهای امنیتی جدیدی ایجاد کرده است.
هوش مصنوعی در کنار تمام قابلیتهای پیشرفتهاش، میتواند به یک چالش امنیتی تبدیل شود. از زمان ظهور مدلهای مولد، هکرها تلاش کردهاند از این فناوری برای مقاصد مخرب استفاده کنند. حالا، تحقیقات جدید نشان میدهد که جمینای میتواند بهطور ناخواسته خودش را هک کند—آن هم از طریق روشی موسوم به Fun-Tuning.
یکی از شیوههای رایج برای فریب دادن مدلهای زبانی، تزریق درخواست است. در این تکنیک، هکرها اطلاعات مخرب را درون درخواستهایی مخفی میکنند که مدل قادر به شناسایی آنها نیست. برخی مدلها تفاوت بین درخواستهای کاربران و دستورالعملهای توسعهدهندگان را تشخیص نمیدهند و همین مسئله باعث میشود که مهاجمان بتوانند مدل را به اجرای فرمانهای ناخواسته وادار کنند.
اما چطور ممکن است هوش مصنوعی جمینای خودش را هک کند؟ جای نگرانی نیست؛ این مسئله ناشی از حملهای گسترده نیست، بلکه تیمی از پژوهشگران دانشگاههای کالیفرنیا سن دیگو و ویسکانسین در بررسیهای خود به این موضوع پی بردهاند. آنها چندین نسخه از جمینای را مورد آزمایش قرار داده و دریافتند که تکنیک Fun-Tuning، که نوعی اصلاحشده از Fine-Tuning است، میتواند این مدلها را فریب دهد.
Fun-Tuning شامل اضافه کردن عبارتهایی خاص مانند wandel ! ! ! ! یا formatted ! ASAP ! در درخواستها است. همین تغییرات ظاهراً بیاهمیت، احتمال موفقیت حملات مخرب را به میزان چشمگیری افزایش داده است. در جمینای ۱.۵، استفاده از این روش باعث شد که حملات با احتمال ۶۵ درصد موفق شوند، درحالیکه در نسخه جمینای ۱.۰ پرو این میزان به ۸۰ درصد رسید—رقمی که نگرانیهای جدیتری را به همراه دارد.
جالب اینجاست که جمینای ابزاری برای ارزیابی کیفیت پاسخهای خود دارد که بر اساس نزدیکی نتایج به پاسخ مطلوب، امتیازدهی میکند. درحالیکه این ابزار به کاربران برای بهینهسازی درخواستها کمک میکند، همان سیستم میتواند علیه خود مدل مورد استفاده قرار بگیرد و فرآیند هک را تسهیل کند.
هنوز مشخص نیست که گوگل چگونه به این یافتهها واکنش نشان خواهد داد. همچنین معلوم نیست که این روش روی مدلهای جدیدتر Gemini 2.0 یا Gemini 2.5 Pro نیز کارایی دارد یا نه. اما با توجه به خطرات احتمالی، بررسی این مسئله برای آیندهی امنیت هوش مصنوعی ضروری خواهد بود.