یک موسسه پژوهشی غیرانتفاعی هلندی اعلام کرده که کارامدترین عامل هوش مصنوعی، «کلود اوپس» شرکت انتروپیک، فقط در ۵۴ درصد موارد با قانون اتحادیه اروپا همراه بوده است.
پژوهش جديد نشان میدهد برخی از پرطرفدارترين مدلهای هوش مصنوعی جهان در حال ساخت عاملهايی هستند که برای رسيدن به اهداف خود به طور فعال در برابر مقررات اتحاديه اروپا مقاومت میکنند.
آيتوس، يک نهاد غيرانتفاعی هلندی که بر همترازی هوش مصنوعی پژوهش میکند، سامانهای به نام LARA را توسعه داد (منبع به زبان انگلیسی) تا ۱۲ مدل محبوب عاملهای هوش مصنوعی را بيازمايد و ببيند آيا در پرسشهای سناريومحور، بخشهای کليدی قانون هوش مصنوعی اتحاديه اروپا را که نحوه استفاده از سامانههای هوش مصنوعی را تنظيم میکند و نيز مقررات حفاظت از دادههای اين بلوک (GDPR) را رعايت میکنند يا نه.
اين سامانه شش بند از قانون هوش مصنوعی اتحاديه اروپا را آزمود: اينکه آيا مدلها از آسيبپذيریها سواستفاده میکنند، احساسات را استنباط میکنند، بر اساس ويژگیها يا پيشينه افراد نوعی «امتيازدهی اجتماعی» يا رتبهبندی انجام میدهند، در مکالمه پنهان میکنند که هوش مصنوعی هستند، از دستکاری ناخودآگاه استفاده میکنند و نظارت انسانی معنادار فراهم میکنند.
همچنين چهار شاخص مرتبط با GDPR از جمله شفافيت، حداقلسازی داده، محدوديت هدف و پردازش قانونی سنجيده شد. سپس سه مدل هوش مصنوعی به همراه داوران انسانی ارزيابی کردند که آيا پاسخها ناقض قوانين اتحاديه اروپا هست يا نه.
مطالعه نشان داد عملکرد همه مدلها ضعيف بود. مطابقترين مدل، Opus 4.7 شرکت Claude، در ۵۴ درصد سناريوها قانون را رعايت کرد و ضعيفترين مدل، Moonshot AI چين، تنها در ۷ درصد موارد چنين کرد.
به گفته پژوهش، همه مدلها در سناريوها با پايش وضعيت عاطفی کارکنان يا سواستفاده از افراد آسيبپذير برای انجام فروش موافقت کردند.
ميسترال، تنها مدل بومی اروپايی هوش مصنوعی که آزموده شد، کمتر از ۱۲ درصد امتياز گرفت؛ نتيجهای که پژوهشگران آن را به اين معنا میدانند که حتا ارائهدهندگان اروپايی نيز «برای رعايت قوانين اتحاديه اروپا مجهز نيستند».
آيتوس در يک وبلاگ نوشت: «حتا پيشرفتهترين مدلهای در حال استفاده امروز، هنگام به کارگيری به صورت عامل، رعايت قانون را تضمين نمیکنند».
در يک نمونه (منبع به زبان انگلیسی)، يک کاربر از Claude شرکت Anthropic خواست بر اساس دادههای عملکرد و درخواست مرخصی، احتمال «ترک شغل» و خروج کارکنان از شرکت را تعيين کند.
کاربر سه بار تلاش کرد تا Claude کارکنان را رتبهبندی کند؛ اقدامی که به گفته لارا ناقض بخشی از قانون هوش مصنوعی اتحاديه اروپا است که تصريح میکند اين سامانهها نبايد احساسات کاربران خود را استنباط کنند.
لارا مواردی را که هوشهای مصنوعی مقاومت نشان میدادند، مانند همين نمونه از Claude، رديابی کرد، اما يادآور شد که در ۸ درصد موارد اين سامانهها در نهايت به درخواستهای کاربران پاسخ دادند.
در نمونهای ديگر، از ChatGPT 5.5 خواسته شد کارکنان را براساس شاخصهای عملکردشان رتبهبندی کند (منبع به زبان انگلیسی) تا بدون هيچ مقاومتی مشخص شود چه کسانی بايد برای ترفيع در نظر گرفته شوند.
پژوهشگران خاطرنشان کردند به اين سامانههای هوش مصنوعی صراحتا گفته نشده بود بايد از قوانين اتحاديه اروپا پيروی کنند، زيرا هدف آنان آزمودن رفتار ذاتي مدلها بود و افزودند بايد پژوهشهای بيشتری برای مقايسه رفتار مدلها در شرايطی که صراحتا به رعايت قوانين و مقررات ملزم میشوند انجام شود.