در میان ۲۵ مدل برتر هوشمصنوعی ۶۲ درصد پرامپتهای شاعرانه پاسخهای ناایمن تولید کردند و برخی مدلها به تقریبا همه آنها پاسخ دادند.
پژوهشگران در ایتالیا کشف کردهاند که نوشتن پرامپتهای مضر به صورت شعر میتواند به شکل قابل اتکا از سازوکارهای ایمنی برخی از پیشرفتهترین چتباتهای هوش مصنوعی جهان عبور کند.
این مطالعه که توسط Icaro Lab، ابتکار شرکت هوش مصنوعی اخلاقی DexAI، انجام شده، ۲۰ شعر به زبانهای انگلیسی و ایتالیایی را آزموده است.
هر کدام با درخواستی صریح برای محتوای مضر پایان مییافت؛ از جمله گفتار نفرتپراکن، محتوای جنسی، دستورالعملهای مربوط به خودکشی و خودآسیبی و راهنمایی برای ساخت مواد خطرناک مانند سلاح و مواد منفجره.
شعرها که پژوهشگران با اشاره به امکان بازتولید آسان تصمیم گرفتند منتشرشان نکنند، روی ۲۵ سامانه هوش مصنوعی از ۹ شرکت آزمایش شدند؛ از جمله گوگل، OpenAI، Anthropic، Deepseek، Qwen، Mistral AI، Meta، xAI و Moonshot AI.
در همه مدلها، ۶۲ درصد از پرامپتهای شاعرانه به پاسخهای ناایمن انجامیدند و آموزشهای ایمنی سامانهها را دور زدند.
برخی مدلها مقاومتر از بقیه بودند. GPT-5 nano شرکت OpenAI به هیچیک از شعرها با محتوای مضر پاسخ نداد، درحالیکه Gemini ۲.۵ پرو گوگل به همه آنها پاسخ داد. دو مدل Meta به ۷۰ درصد پرامپتها پاسخ دادند.
این پژوهش نشان میدهد منشأ این آسیبپذیری به شیوه تولید متن توسط مدلهای هوش مصنوعی برمیگردد. مدلهای زبانی بزرگ محتملترین کلمه بعدی را در پاسخ پیشبینی میکنند؛ فرایندی که در شرایط عادی به آنها امکان میدهد محتوای مضر را فیلتر کنند.
اما شعر با ریتم و ساختار غیرمتعارف و بهرهگیری از استعاره، این پیشبینیها را کماعتمادتر میکند و تشخیص و مسدودسازی دستورهای ناایمن را برای هوش مصنوعی دشوارتر میسازد.
درحالیکه «جیلبریک»های مرسوم هوش مصنوعی (دستکاری یک مدل زبانی بزرگ از طریق ورودیها) معمولاً پیچیدهاند و تنها توسط پژوهشگران، هکرها یا بازیگران دولتی به کار میروند، شعرهای خصمانه را هر کسی میتواند به کار بگیرد؛ موضوعی که پرسشهایی درباره میزان تابآوری سامانههای هوش مصنوعی در استفاده روزمره ایجاد میکند.
پیش از انتشار نتایج، پژوهشگران ایتالیایی با همه شرکتهای درگیر تماس گرفتند تا آنها را از این آسیبپذیری آگاه کنند و مجموعهداده کامل را در اختیارشان بگذارند، اما تاکنون فقط Anthropic پاسخ داده است. این شرکت تایید کرده در حال بررسی این مطالعه است.