بیش از ۱۰۰ پژوهشگر خواستار اتخاذ تدابیر حفاظتی برای مجموعهدادههای زیستی پرخطر شدهاند تا از سواستفاده هوش مصنوعی و تولید عوامل بیماریزای مرگبار جلوگیری شود.
مدل های هوش مصنوعی (AI) در حوزه زیستشناسی به حجم های عظیم داده های زیستی، از جمله توالی های ژنتیکی و ویژگی های عوامل بیماریزا، متکی هستند. اما آیا این اطلاعات باید به طور عمومی در دسترس باشد و چگونه میتوان اطمینان حاصل کرد که به شکل مشروع مورد استفاده قرار میگیرد؟
بیش از ۱۰۰ پژوهشگر هشدار دادهاند که دسترسی نامحدود به برخی مجموعه داده های زیستی میتواند این امکان را به سامانه های هوش مصنوعی بدهد که در طراحی یا تقویت ویروس های خطرناک کمک کنند و خواستار محافظت های قویتر برای جلوگیری از سوءاستفاده شدهاند.
در یک نامه سرگشاده (منبع به زبان انگلیسی)، پژوهشگران موسسه های پیشرو، از جمله دانشگاه جانز هاپکینز، دانشگاه آکسفورد، دانشگاه فوردهم و دانشگاه استنفورد، استدلال میکنند هرچند داده های علمی با دسترسی آزاد روند کشف های علمی را شتاب داده، اما یک زیرمجموعه کوچک از داده های زیستی جدید، در صورت استفاده نادرست، خطرهای جدی برای ایمنی زیستی ایجاد میکند.
نویسندگان این نامه نوشتند: «اهمیت حکمرانی بر داده های زیستی بسیار بالاست، زیرا مدل های هوش مصنوعی میتوانند به ایجاد تهدیدهای شدید زیستی کمک کنند.»
مدل های هوش مصنوعی مورد استفاده در زیستشناسی میتوانند جهش ها را پیشبینی کنند، الگوها را تشخیص دهند و گونه های قابلسرایتتر از عوامل بیماریزای همهگیر تولید کنند.
نویسندگان این توانایی را «قابلیت نگرانکننده» توصیف میکنند که میتواند فرایند ایجاد عوامل بیماریزای زیستی قابلانتقال را که به همهگیری های انسانی یا رخدادهای مشابه در میان حیوانات، گیاهان یا محیط زیست منجر میشود، تسریع و ساده کند.
پژوهشگران تاکید کردند که داده های زیستی به طور کلی باید به صورت آزاد در دسترس باشد، اما «داده های نگرانکننده درباره عوامل بیماریزا» نیازمند کنترل های امنیتی سختگیرانهتری است.
آنها در این مقاله نوشتند: «تمرکز ما بر تعریف و تنظیم نگرانکنندهترین مجموعه داده ها پیش از آن است که به طور گسترده در اختیار توسعهدهندگان هوش مصنوعی قرار گیرد» و در همین چارچوب، یک الگوی تازه برای تنظیم دسترسی پیشنهاد کردند.
موریس هنکه، همنویسنده این نامه از دانشگاه جانز هاپکینز، گفت: «در زمانی که مدل های زیستی هوش مصنوعی با وزن های باز در سراسر جهان توسعه مییابد، محدود کردن دسترسی به داده های حساس مربوط به عوامل بیماریزا به پژوهشگران معتبر، شاید یکی از امیدبخشترین راه ها برای کاهش خطر باشد.»
توسعهدهندگان چه میکنند
در حال حاضر هیچ چارچوب جهانی برای تنظیم این مجموعه داده ها وجود ندارد. هرچند برخی توسعهدهندگان به طور داوطلبانه داده های پرخطر را کنار میگذارند، اما پژوهشگران میگویند باید قواعدی روشن و یکسان برای همه اعمال شود.
توسعهدهندگان دو مدل پیشروی هوش مصنوعی زیستی، یعنی Evo که با همکاری موسسه Arc، دانشگاه استنفورد و شرکت TogetherAI ساخته شده، و ESM3 از شرکت EvolutionaryScale، بخشی از توالی های ویروسی را از داده های آموزشی خود حذف کردهاند.
در فوریه ۲۰۲۵، تیم Evo 2 اعلام کرد به دلیل ملاحظات اخلاقی و ایمنی، و برای «پیشگیری از استفاده از Evo در توسعه سلاح های زیستی»، عوامل بیماریزای آلودهکننده انسان و دیگر موجودات پیچیده را از مجموعه داده های خود حذف کرده است.
Evo 2 یک مدل متنباز هوش مصنوعی برای زیستشناسی است که میتواند آثار جهش های DNA را پیشبینی کند، ژنوم های تازه طراحی کند و الگوهای موجود در کد ژنتیکی را آشکار سازد.
جسی پانو، نویسنده این پژوهش و از همنویسندگان نامه، در لینکدین نوشت: «در حال حاضر هیچ دستورالعمل مورد تایید متخصصان درباره این که کدام داده ها خطر معناداری ایجاد میکنند وجود ندارد و همین باعث شده برخی از توسعهدهندگان پیشرو بر اساس حدس خود عمل کنند و داوطلبانه داده های ویروسی را از آموزش مدل ها کنار بگذارند.»
انواع مختلف داده های پرخطر
نویسندگان یادآور میشوند که چارچوب پیشنهادی تنها بر بخش کوچکی از مجموعه داده های زیستی اعمال میشود.
در این طرح، نظامی پنجسطحی با عنوان «سطح داده های ایمنی زیستی» (BDL) برای طبقهبندی داده های مربوط به عوامل بیماریزا معرفی شده که داده ها را بر اساس سطح «خطر» و بر مبنای توان بالقوه آنها در آموزش دادن الگوهای کلی ویروسی و تهدیدهای زیستی علیه انسان ها و حیوانات به سامانه های هوش مصنوعی دستهبندی میکند. این سطوح عبارت است از:
BDL-0: داده های زیستشناسی روزمره. نباید محدودیتی داشته باشد و میتواند آزادانه به اشتراک گذاشته شود.
BLD-1: اجزای پایه ویروسی، مانند توالی های ژنتیکی. به کنترل های امنیتی گسترده نیاز ندارد، اما ورود و دسترسی باید تحت نظارت باشد.
BLD-2: داده های مربوط به ویژگی های ویروس های حیوانی، مانند توانایی عبور از گونه ای به گونه دیگر یا زنده ماندن خارج از میزبان.
BLD-3: داده های مربوط به ویژگی های ویروس های انسانی، از جمله میزان سرایت، علائم و مقاومت در برابر واکسن.
BLD-4: ویروس های انسانی ارتقایافته، مانند جهش های ویروس کووید-۱۹ که آن را مسریتر میکند. این دسته با سختگیرانهترین محدودیت ها روبهرو خواهد بود.
تضمین دسترسی ایمن
برای تضمین دسترسی ایمن، نویسندگان نامه خواستار استفاده از ابزارهای فنی مشخصی شدهاند که به تامینکنندگان داده امکان میدهد کاربران مشروع را شناسایی و سوءاستفاده ها را ردیابی کنند.
از جمله این ابزارها میتوان به واترمارکگذاری، یعنی جاسازی شناسه های مخفی و یکتا در مجموعه داده ها برای ردیابی آسان نشت ها، ثبت منشأ داده، گزارش های حسابرسی که دسترسی ها و تغییرات را با امضاهای غیرقابلدستکاری ثبت میکند، و نیز سنجش های زیستسنجی رفتاری برای ردیابی الگوهای منحصربهفرد تعامل کاربران اشاره کرد.
پژوهشگران معتقدند یافتن توازن درست میان شفافیت و محدودیت های امنیتی ضروری بر داده های پرخطر، همزمان با قدرتمندتر و فراگیرتر شدن سامانه های هوش مصنوعی، نقشی اساسی خواهد داشت.