چرا ناشران اخبار جلوی دسترسی هوش مصنوعی به آرشیوهای اینترنتی را می‌گیرند؟

فردی در حال خواندن روزنامه نیویورک تایمز - Copyright Beyzanur K. /Pexels

تاریخ انتشار ۰۱/۰۵/۲۰۲۶ - ۱۶:۲۴ ‎+۲ گرینویچ•به روز شده در ۱۷:۲۰

همرسانی

استفاده شرکتهای هوش مصنوعی از آرشیو محتوای خبری می‌تواند نقض جدی قوانین حق نشر باشد، به ویژه در بحبوحه شکایتهای حقوقی علیه شرکتهایی مانند OpenAI و Perplexity.

حدود ۲۴۵ سازمان خبری در ۹ کشور جهان در تلاش هستند دسترسی کراولرهای آرشیو اینترنت را مسدود کنند. این کراولرها ربات‌های نرم‌افزاری خودکاری هستند که محتوا را از صفحات وب دریافت، نمایش و در رابط عمومی آرشیو اینترنت، یعنی سرویس ویبک ماشین، آرشیو می‌کنند.

آگهی

در این آرشیو بیش از یک تریلیون صفحه وب نگهداری می‌شود که قدمت آنها به سال ۱۹۹۶ می‌رسد و آن را به یکی از بزرگ‌ترین منابع عمومی اطلاعات در جهان تبدیل کرده است. این مجموعه شامل مقالات قدیمی رسانه‌های بزرگ خبری مانند CNN، نیویورک تایمز، گاردین و یواس‌ای تودی هم می‌شود.

این صفحات وب برای کاربردهای مختلفی استفاده می‌شوند؛ مثلا به عنوان منابع دست اول برای تاریخ‌نگاران یا برای اثبات تغییراتی که پس از انتشار در متون ایجاد شده است.

چندین سازمان خبری اکنون برای مسدود کردن این کراولرها فشار می‌آورند، چون شرکت‌های فعال در حوزه هوش مصنوعی بدون پرداخت منصفانه یا گرفتن مجوز، از محتوای این آرشیو برای آموزش مدل‌های زبانی بزرگ استفاده می‌کنند.

بنا بر تحلیل شرکت ردیابی هوش مصنوعی Originality AI، بیش از ۲۰ سازمان خبری بزرگ در حال حاضر دسترسی ia_archiverbot، اصلی‌ترین خزنده وب که آرشیو اینترنت برای سرویس ویبک ماشین از آن استفاده می‌کند، را مسدود کرده‌اند.

با این حال دست‌کم یکی از چهار ربات خزنده آرشیو اینترنت توسط ۲۴۱ وب‌سایت خبری در جهان مسدود شده است. بخش عمده این وب‌سایت‌های مسدود شده متعلق به شرکت یواس‌ای تودی، بزرگ‌ترین ناشر روزنامه در ایالات متحده است. این وضع به آن معناست که صدها نشریه محلی عملا از سوابق تاریخی حذف شده‌اند.

خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی

محتوای خبری آرشیوی حجم عظیمی متن و تصویر با کیفیت بالا در اختیار می‌گذارد تا مدل‌های بزرگ مدل‌های هوش مصنوعی را با نوشتاری نزدیک‌تر به زبان انسان آموزش دهند. این داده‌ها از طریق نشانی‌های اینترنتی و رابط‌های برنامه‌نویسی یا API در دسترس است؛ رابط‌هایی که به نرم‌افزارهای مختلف امکان می‌دهند با یکدیگر ارتباط برقرار کنند و داده‌ها را درخواست کنند و در نقش پلی میان سامانه‌ها عمل می‌کنند.

این وضعیت دسترسی شرکت‌های هوش مصنوعی به داده‌های آرشیوی و آموزش مدل‌ها را باز هم آسان‌تر می‌کند.

مزیت دیگر این است که محتوای موجود در آرشیو اینترنت از پیش ساختاردهی شده، منبع آن مشخص است و تاریخ دارد.

بخش زیادی از داده‌های آرشیو اینترنت پیش‌تر در مجموعه‌داده‌های اصلی آموزش هوش مصنوعی شناسایی شده است. اما این موضوع برای سازمان‌های خبری یک نقطه ضعف جدی به شمار می‌رود؛ رسانه‌هایی که همین حالا هم از شرکت‌هایی مانند Perplexity و OpenAI به خاطر نقض احتمالی حق نشر شکایت کرده‌اند.

گراهام جیمز، سخنگوی روزنامه نیویورک تایمز، به نقل از وب‌سایت نکست وب گفت: «مسئله این است که محتوای تایمز در آرشیو اینترنت توسط شرکت‌های هوش مصنوعی در نقض قوانین حق نشر استفاده می‌شود تا مستقیما با ما رقابت کنند.»

او افزود: «تایمز منابع بسیار زیادی برای تولید روزنامه‌نگاری اصیل صرف می‌کند و این کار نباید بدون اجازه ما مورد استفاده قرار گیرد.»

سازمان‌های دیگری مانند گاردین رویکرد محتاطانه‌تری در پیش گرفته‌اند و به جای مسدود کردن کامل، دسترسی آرشیو اینترنت را محدود کرده‌اند.

آرشیو اینترنت می‌گوید «خسارت جانبی» است

مارک گراهام، مدیر سرویس ویبک ماشین، تاکید کرده است که آنها صرفا «خسارت جانبی» هستند و مقصران واقعی، شرکت‌های هوش مصنوعی‌اند که از طریق رابط‌های آرشیو اینترنت به محتوای گذشته دسترسی پیدا می‌کنند.

با این حال خود آرشیو نیز برای محدود کردن این روند اقداماتی انجام داده است؛ از جمله جلوگیری از دانلودهای حجیم برخی سایت‌ها و محدود کردن استخراج خودکار داده در بعضی موارد.

گراهام تاکید کرده است که این آرشیو یکی از ابزارهای اصلی حفظ و نگهداری اطلاعات است. بدون آن، مقالاتی که آرشیو نشده‌اند می‌توانند بدون مجوز و بدون پاسخ‌گویی ویرایش شوند؛ از تغییر یا حذف نقل‌قول‌ها گرفته تا اصلاح اشتباهات یا تغییر جهت ادعاها و بیانیه‌های رسمی.

در حال حاضر این تغییرات توسط ویبک ماشین ثبت و رصد می‌شود.

همین موضوع باعث شده است برخی سازمان‌های خبری بکوشند با آرشیو اینترنت همکاری کنند تا به راه‌حل‌ها یا مصالحه‌های قابل قبولی برسند که به جای مسدودسازی کامل، بر محدود کردن دسترسی تکیه دارد.

در همین راستا، گروه غیرانتفاعی مدافع حقوق دیجیتال «فایت فور د فیوچر» نیز کارزاری راه انداخته است که تاکنون ۱۰۰ روزنامه‌نگار شاغل آن را امضا کرده‌اند تا علیه این مسدودسازی اعتراض کنند. این اقدام در زمانی صورت می‌گیرد که سوابق عمومی و تاریخ بیش از پیش مورد مناقشه است.

رفتن به میانبرهای دسترسی

نظرها

چرا ناشران اخبار جلوی دسترسی هوش مصنوعی به آرشیوهای اینترنتی را می‌گیرند؟

استفاده شرکتهای هوش مصنوعی از آرشیو محتوای خبری می‌تواند نقض جدی قوانین حق نشر باشد، به ویژه در بحبوحه شکایتهای حقوقی علیه شرکتهایی مانند OpenAI و Perplexity.

خطرات استفاده از محتوای آرشیوی برای آموزش هوش مصنوعی

آرشیو اینترنت می‌گوید «خسارت جانبی» است

مطالب مرتبط

سود آلفابت، شرکت مادر گوگل، در گزارش سود غول‌های فناوری ۸۱ درصد جهش کرد

اتهام به متا: استفاده از مام‌اینفلوئنسرها برای جهت‌دهی به روایت امنیت کودکان

بیکاری گسترده و ناآرامی اجتماعی: شهروندان بریتانیا درباره هوش مصنوعی چه فکر می‌کنند

رویترز: مجتبی خامنه‌ای با انتقال ذخایر اورانیوم به خارج از ایران مخالفت کرده است

۱۰ کشور برتر اروپا برای دریافت تابعیت دوگانه در سال ۲۰۲۶ کدامند؟

ادعای اکسیوس: نتانیاهو بعد از گفت‌وگو با ترامپ درباره احتمال توافق با ایران به شدت برافروخته شد

از انکار هولوکاست تا سناریوی بازگشت به قدرت؛ آیا احمدی‌نژاد «الی کوهن» جمهوری اسلامی بود؟

بدون ویزای کار در فرانسه مشغول فعالیت شوید؛ قوانین برای دارندگان «کارت آبی اتحادیه اروپا» تسهیل شد