استفاده شرکتهای هوش مصنوعی از آرشیو محتوای خبری میتواند نقض جدی قوانین حق نشر باشد، به ویژه در بحبوحه شکایتهای حقوقی علیه شرکتهایی مانند OpenAI و Perplexity.
حدود ۲۴۵ سازمان خبری در ۹ کشور جهان در تلاش هستند دسترسی کراولرهای آرشیو اینترنت را مسدود کنند. این کراولرها رباتهای نرمافزاری خودکاری هستند که محتوا را از صفحات وب دریافت، نمایش و در رابط عمومی آرشیو اینترنت، یعنی سرویس ویبک ماشین، آرشیو میکنند.
در این آرشیو بیش از یک تریلیون صفحه وب نگهداری میشود که قدمت آنها به سال ۱۹۹۶ میرسد و آن را به یکی از بزرگترین منابع عمومی اطلاعات در جهان تبدیل کرده است. این مجموعه شامل مقالات قدیمی رسانههای بزرگ خبری مانند CNN، نیویورک تایمز، گاردین و یواسای تودی هم میشود.
این صفحات وب برای کاربردهای مختلفی استفاده میشوند؛ مثلا به عنوان منابع دست اول برای تاریخنگاران یا برای اثبات تغییراتی که پس از انتشار در متون ایجاد شده است.
چندین سازمان خبری اکنون برای مسدود کردن این کراولرها فشار میآورند، چون شرکتهای فعال در حوزه هوش مصنوعی بدون پرداخت منصفانه یا گرفتن مجوز، از محتوای این آرشیو برای آموزش مدلهای زبانی بزرگ استفاده میکنند.
بنا بر تحلیل شرکت ردیابی هوش مصنوعی Originality AI، بیش از ۲۰ سازمان خبری بزرگ در حال حاضر دسترسی ia_archiverbot، اصلیترین خزنده وب که آرشیو اینترنت برای سرویس ویبک ماشین از آن استفاده میکند، را مسدود کردهاند.
با این حال دستکم یکی از چهار ربات خزنده آرشیو اینترنت توسط ۲۴۱ وبسایت خبری در جهان مسدود شده است. بخش عمده این وبسایتهای مسدود شده متعلق به شرکت یواسای تودی، بزرگترین ناشر روزنامه در ایالات متحده است. این وضع به آن معناست که صدها نشریه محلی عملا از سوابق تاریخی حذف شدهاند.
خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی
محتوای خبری آرشیوی حجم عظیمی متن و تصویر با کیفیت بالا در اختیار میگذارد تا مدلهای بزرگ مدلهای هوش مصنوعی را با نوشتاری نزدیکتر به زبان انسان آموزش دهند. این دادهها از طریق نشانیهای اینترنتی و رابطهای برنامهنویسی یا API در دسترس است؛ رابطهایی که به نرمافزارهای مختلف امکان میدهند با یکدیگر ارتباط برقرار کنند و دادهها را درخواست کنند و در نقش پلی میان سامانهها عمل میکنند.
این وضعیت دسترسی شرکتهای هوش مصنوعی به دادههای آرشیوی و آموزش مدلها را باز هم آسانتر میکند.
مزیت دیگر این است که محتوای موجود در آرشیو اینترنت از پیش ساختاردهی شده، منبع آن مشخص است و تاریخ دارد.
بخش زیادی از دادههای آرشیو اینترنت پیشتر در مجموعهدادههای اصلی آموزش هوش مصنوعی شناسایی شده است. اما این موضوع برای سازمانهای خبری یک نقطه ضعف جدی به شمار میرود؛ رسانههایی که همین حالا هم از شرکتهایی مانند Perplexity و OpenAI به خاطر نقض احتمالی حق نشر شکایت کردهاند.
گراهام جیمز، سخنگوی روزنامه نیویورک تایمز، به نقل از وبسایت نکست وب گفت: «مسئله این است که محتوای تایمز در آرشیو اینترنت توسط شرکتهای هوش مصنوعی در نقض قوانین حق نشر استفاده میشود تا مستقیما با ما رقابت کنند.»
او افزود: «تایمز منابع بسیار زیادی برای تولید روزنامهنگاری اصیل صرف میکند و این کار نباید بدون اجازه ما مورد استفاده قرار گیرد.»
سازمانهای دیگری مانند گاردین رویکرد محتاطانهتری در پیش گرفتهاند و به جای مسدود کردن کامل، دسترسی آرشیو اینترنت را محدود کردهاند.
آرشیو اینترنت میگوید «خسارت جانبی» است
مارک گراهام، مدیر سرویس ویبک ماشین، تاکید کرده است که آنها صرفا «خسارت جانبی» هستند و مقصران واقعی، شرکتهای هوش مصنوعیاند که از طریق رابطهای آرشیو اینترنت به محتوای گذشته دسترسی پیدا میکنند.
با این حال خود آرشیو نیز برای محدود کردن این روند اقداماتی انجام داده است؛ از جمله جلوگیری از دانلودهای حجیم برخی سایتها و محدود کردن استخراج خودکار داده در بعضی موارد.
گراهام تاکید کرده است که این آرشیو یکی از ابزارهای اصلی حفظ و نگهداری اطلاعات است. بدون آن، مقالاتی که آرشیو نشدهاند میتوانند بدون مجوز و بدون پاسخگویی ویرایش شوند؛ از تغییر یا حذف نقلقولها گرفته تا اصلاح اشتباهات یا تغییر جهت ادعاها و بیانیههای رسمی.
در حال حاضر این تغییرات توسط ویبک ماشین ثبت و رصد میشود.
همین موضوع باعث شده است برخی سازمانهای خبری بکوشند با آرشیو اینترنت همکاری کنند تا به راهحلها یا مصالحههای قابل قبولی برسند که به جای مسدودسازی کامل، بر محدود کردن دسترسی تکیه دارد.
در همین راستا، گروه غیرانتفاعی مدافع حقوق دیجیتال «فایت فور د فیوچر» نیز کارزاری راه انداخته است که تاکنون ۱۰۰ روزنامهنگار شاغل آن را امضا کردهاند تا علیه این مسدودسازی اعتراض کنند. این اقدام در زمانی صورت میگیرد که سوابق عمومی و تاریخ بیش از پیش مورد مناقشه است.