گزارشی تازه نشان میدهد هرچه گفتوگوی کاربر با سامانههای هوش مصنوعی طولانیتر شود، آنها «تدابیر ایمنی» خود را فراموش کرده و احتمال ارائه اطلاعات مضر یا نامناسب بیشتر میشود.
یک گزارش جدید نشان میدهد که برای دور زدن اغلب محافظهای ایمنی در ابزارهای هوش مصنوعی (AI) تنها چند دستور ساده کافی است.
شرکت فناوری سیسکو مدلهای زبانی بزرگ (LLM) پشت چتباتهای محبوبِ OpenAI، میسترال، متا، گوگل، علیبابا، دیپسیک و مایکروسافت را ارزیابی کرد تا ببیند این مدلها با چند پرسش حاضر میشوند اطلاعات ناامن یا مجرمانه را افشا کنند.
آنها این کار را در ۴۹۹ مکالمه با استفاده از روشی به نام «حملات چندمرحلهای» انجام دادند؛ جایی که کاربران بدخواه با طرح چندین پرسش از ابزارهای هوش مصنوعی، از سد تدابیر ایمنی میگذرند. هر مکالمه بین ۵ تا ۱۰ تعامل داشت.
پژوهشگران نتایج بهدستآمده از چند پرسش را مقایسه کردند تا احتمال اجابت درخواستهای حاوی اطلاعات زیانبار یا نامناسب از سوی چتباتها را بسنجند.
این موارد میتواند از اشتراکگذاری دادههای محرمانه شرکتها تا تسهیل انتشار اطلاعات نادرست را دربر بگیرد.
به طور میانگین، وقتی از چتباتهای هوش مصنوعی چندین پرسش میکردند، در ۶۴ درصد از مکالمات موفق به دریافت اطلاعات مخرب شدند؛ در حالی که با طرح تنها یک پرسش این رقم به ۱۳ درصد محدود بود.
نرخ موفقیت از حدود ۲۶ درصد در مدل Gemmaِ گوگل تا ۹۳ درصد در مدل Large Instructِ میسترال متغیر بود.
سیسکو میگوید این یافتهها نشان میدهد حملات چندمرحلهای میتواند به گسترش وسیع محتوای زیانبار دامن بزند یا به هکرها امکان «دسترسی غیرمجاز» به اطلاعات حساس شرکتها را بدهد.
به گفته این مطالعه، سامانههای هوش مصنوعی در گفتوگوهای طولانیتر اغلب نمیتوانند قواعد ایمنی خود را به یاد بیاورند و اجرا کنند. این یعنی مهاجمان میتوانند بهتدریج پرسشهایشان را پالایش کنند و از تدابیر امنیتی بگریزند.
میسترال، مانند متا، گوگل، اوپنایآی و مایکروسافت، با مدلهای زبانی بزرگِ دارای وزنهای باز کار میکند؛ در این رویکرد عموم میتوانند به پارامترهای ایمنی مشخصی که مدلها بر پایه آنها آموزش دیدهاند دسترسی داشته باشند.
به گفته سیسکو، این مدلها اغلب «ویژگیهای ایمنیِ داخلی سبکتری» دارند تا افراد بتوانند آنها را دانلود و سفارشیسازی کنند. در نتیجه، بار مسئولیت ایمنی به دوش کسی میافتد که با استفاده از اطلاعات متنباز، مدل اختصاصی خود را سفارشی کرده است.
نکته مهم اینکه سیسکو یادآور شد گوگل، اوپنایآی، متا و مایکروسافت اعلام کردهاند برای کاهش هرگونه ریزتنظیمِ مخربِ مدلهایشان اقداماتی انجام دادهاند.
شرکتهای هوش مصنوعی بهخاطر محافظهای ایمنی سستشان که سازگار کردن سامانهها برای استفاده مجرمانه را آسان کرده است، زیر تیغ انتقاد قرار گرفتهاند.
برای مثال، در ماه اوت، شرکت آمریکایی آنتروپیک اعلام کرد که مجرمان از مدل کلودِ این شرکت برای سرقت و اخاذی گسترده دادههای شخصی استفاده کردهاند و از قربانیان باجهایی خواستهاند که گاهی از ۵۰۰ هزار دلار (۴۳۳ هزار یورو) هم فراتر میرفت.