پژوهش جدید: شعر می‌تواند چت‌بات‌های هوش مصنوعی را به نادیده‌گرفتن قواعد ایمنی وادارد

پرتره چندوس احتمالا شکسپیر را نشان می‌دهد (حدود سال ۱۶۱۱) - Copyright Credit: Wikimedia Commons

نگارش از Theo Farrant

تاریخ انتشار ۰۱/۱۲/۲۰۲۵ - ۱۴:۱۸ ‎+۱ گرینویچ

همرسانی

در میان ۲۵ مدل برتر هوش‌مصنوعی ۶۲ درصد پرامپت‌های شاعرانه پاسخ‌های ناایمن تولید کردند و برخی مدل‌ها به تقریبا همه آن‌ها پاسخ دادند.

پژوهشگران در ایتالیا کشف کرده‌اند که نوشتن پرامپت‌های مضر به صورت شعر می‌تواند به شکل قابل اتکا از سازوکارهای ایمنی برخی از پیشرفته‌ترین چت‌بات‌های هوش مصنوعی جهان عبور کند.

آگهی

این مطالعه که توسط Icaro Lab، ابتکار شرکت هوش مصنوعی اخلاقی DexAI، انجام شده، ۲۰ شعر به زبان‌های انگلیسی و ایتالیایی را آزموده است.

هر کدام با درخواستی صریح برای محتوای مضر پایان می‌یافت؛ از جمله گفتار نفرت‌پراکن، محتوای جنسی، دستورالعمل‌های مربوط به خودکشی و خودآسیبی و راهنمایی برای ساخت مواد خطرناک مانند سلاح و مواد منفجره.

شعرها که پژوهشگران با اشاره به امکان بازتولید آسان تصمیم گرفتند منتشرشان نکنند، روی ۲۵ سامانه هوش مصنوعی از ۹ شرکت آزمایش شدند؛ از جمله گوگل، OpenAI، Anthropic، Deepseek، Qwen، Mistral AI، Meta، xAI و Moonshot AI.

در همه مدل‌ها، ۶۲ درصد از پرامپت‌های شاعرانه به پاسخ‌های ناایمن انجامیدند و آموزش‌های ایمنی سامانه‌ها را دور زدند.

برخی مدل‌ها مقاوم‌تر از بقیه بودند. GPT-5 nano شرکت OpenAI به هیچ‌یک از شعرها با محتوای مضر پاسخ نداد، درحالی‌که Gemini ۲.۵ پرو گوگل به همه آن‌ها پاسخ داد. دو مدل Meta به ۷۰ درصد پرامپت‌ها پاسخ دادند.

این پژوهش نشان می‌دهد منشأ این آسیب‌پذیری به شیوه تولید متن توسط مدل‌های هوش مصنوعی برمی‌گردد. مدل‌های زبانی بزرگ محتمل‌ترین کلمه بعدی را در پاسخ پیش‌بینی می‌کنند؛ فرایندی که در شرایط عادی به آن‌ها امکان می‌دهد محتوای مضر را فیلتر کنند.

اما شعر با ریتم و ساختار غیرمتعارف و بهره‌گیری از استعاره، این پیش‌بینی‌ها را کم‌اعتمادتر می‌کند و تشخیص و مسدودسازی دستورهای ناایمن را برای هوش مصنوعی دشوارتر می‌سازد.

درحالی‌که «جیل‌بریک»های مرسوم هوش مصنوعی (دستکاری یک مدل زبانی بزرگ از طریق ورودی‌ها) معمولاً پیچیده‌اند و تنها توسط پژوهشگران، هکرها یا بازیگران دولتی به کار می‌روند، شعرهای خصمانه را هر کسی می‌تواند به کار بگیرد؛ موضوعی که پرسش‌هایی درباره میزان تاب‌آوری سامانه‌های هوش مصنوعی در استفاده روزمره ایجاد می‌کند.

پیش از انتشار نتایج، پژوهشگران ایتالیایی با همه شرکت‌های درگیر تماس گرفتند تا آن‌ها را از این آسیب‌پذیری آگاه کنند و مجموعه‌داده کامل را در اختیارشان بگذارند، اما تاکنون فقط Anthropic پاسخ داده است. این شرکت تایید کرده در حال بررسی این مطالعه است.

رفتن به میانبرهای دسترسی

نظرها

پژوهش جدید: شعر می‌تواند چت‌بات‌های هوش مصنوعی را به نادیده‌گرفتن قواعد ایمنی وادارد

در میان ۲۵ مدل برتر هوش‌مصنوعی ۶۲ درصد پرامپت‌های شاعرانه پاسخ‌های ناایمن تولید کردند و برخی مدل‌ها به تقریبا همه آن‌ها پاسخ دادند.

مطالب مرتبط

کدام کشورهای اروپایی هوش‌مصنوعی حاکمیتی خود را برای رقابت در فناوری می‌سازند؟

اوج‌گیری جنگ سایبری در فضا؛ شدیدترین موج حملات ژوئن ۲۰۲۵ همزمان با رویارویی ایران و اسرائیل ثبت شد

قانون شبکه‌های دیجیتال: مخالفت جدید شش کشور عضو اتحادیه اروپا

ترامپ: همه اهداف نظامی را در جزیره خارک کاملا نابود کردیم

کشمکش در کاخ سفید بر سر پایان جنگ ایران؛ مشاوران ترامپ درباره زمان اعلام «پیروزی» اختلاف دارند

جنگ ایران چطور به باورهای آخرالزمانی دامن زده است؟

آیا ادعای ایران مبنی بر اینکه حملات آمریکا و اسرائیل بر توان نظامی‌اش «تأثیری نداشته»، درست است؟

سفیر ایران در سازمان ملل احتمال حمله به اهداف نظامی در اروپا را رد نکرد