یک پژوهش جدید نشان میدهد ابزار «ChatGPT Health» برای تشخیص این که کاربران چه زمانی به مراقبت فوری نیاز دارند دچار مشکل است.
به گفته اوپنایآی هر هفته بیش از ۲۳۰ میلیون نفر از چتجیپیتی برای مشاوره پزشکی کمک میگیرند؛ از اینکه آیا یک غذا برای خوردن ایمن است تا مدیریت آلرژیها یا پیدا کردن راههایی برای خلاص شدن از سرماخوردگی.
با وجود عملکرد مناسب در موارد درسی، طبق مطالعه تازهای که در Nature (منبع به زبان انگلیسی) منتشر شده چتجیپیتی هلث در موارد جدی نتوانست به روشنی توصیه به دریافت مراقبت اورژانسی کند.
این پژوهش نشان داد هرچند این ابزار در مواجهه با موارد اورژانسی واضح عموما درست عمل میکرد اما در بیش از نیمی از مواردی که نیاز به مراقبت اورژانسی داشتند شدت وضعیت را دستکم گرفته بود.
اشوین راماسوامی، نویسنده اصلی این پژوهش در مانت ساینای نیویورک، گفت که «ما میخواستیم به یک پرسش بسیار ساده اما حیاتی پاسخ دهیم: اگر کسی دچار یک اورژانس واقعی شود و برای کمک به چتجیپیتی هلث رجوع کند، آیا این ابزار به طور روشن به او میگوید باید به اورژانس بیمارستان برود؟»
او گفت چتجیپیتی هلث در موارد اورژانسی کلاسیک مانند سکته مغزی یا واکنشهای شدید آلرژیک عملکرد خوبی داشت.
او افزود این مدل زبانی در موقعیتهایی که خطر بلافاصله آشکار نیست با مشکل روبهرو میشود.
او توضیح داد که در یکی از سناریوهای مربوط به آسم، سیستم در توضیحات خود نشانههای اولیه نارسایی تنفسی را تشخیص داده بود اما باز هم به جای توصیه برای مراجعه اورژانسی پیشنهاد کرده بود بیمار صبر کند.
تیم پژوهشی ۶۰ سناریوی بالینی ساختارمند در ۲۱ تخصص پزشکی طراحی کرد که از مشکلات خفیف قابل مدیریت در خانه تا اورژانسهای واقعی پزشکی را دربر میگرفت. سه پزشک مستقل بر اساس دستورالعملهای ۵۶ انجمن علمی سطح درست فوریت برای هر مورد را تعیین کردند.
اوپنایآی چتجیپیتی هلث را ژانویه ۲۰۲۶ راهاندازی کرد؛ ابزاری که به کاربران اجازه میدهد اطلاعات سلامت خود، از جمله پروندههای پزشکی و دادههای برنامههای تندرستی مانند MyFitnessPal، را متصل کنند تا پاسخهایی شخصیتر و متناسب با شرایط دریافت کنند.
خطر خودکشی که درست شناسایی نشد
در این پژوهش همچنین بررسی شد که مدل چگونه به کاربرانی که از قصد آسیبزدن به خود خبر میدادند پاسخ میدهد و نتایج مشابهی به دست آمد.
چتجیپیتی هلث طوری برنامهریزی شده که اگر کسی از آسیب به خود یا افکار خودکشی صحبت کند، او را مستقیما به درخواست کمک و تماس با شمارههای خدمات سلامت عمومی تشویق کند.
بنر «کمک در دسترس است» که به خط تلفن پیشگیری از خودکشی و بحران لینک میشود در طول مطالعه به شکل نامنظم ظاهر شد.
نویسندگان مقاله گفتند این سازوکار ایمنی برای بیماری که هنوز روش مشخصی برای آسیبزدن به خود مطرح نکرده بود قابلاعتمادتر از افرادی عمل میکرد که چنین روشی را بیان کرده بودند.
به نوشته پژوهشگران «این الگو نه فقط ناپایدار بود بلکه به شکلی متناقض نسبت به شدت بالینی وارونه عمل میکرد».
آیا استفاده از چتجیپیتی هلث ایمن است؟
با وجود این یافتهها پژوهشگران توصیه نکردند که مصرفکنندگان به طور کامل استفاده از ابزارهای سلامت مبتنی بر هوشمصنوعی را کنار بگذارند.
الویر تیاگی، نویسنده دوم این مطالعه، گفت که «به عنوان دانشجوی پزشکی در زمانی که ابزارهای سلامت مبتنی بر هوشمصنوعی در دست میلیونها نفر است، این فناوریها را چیزهایی میبینم که باید یاد بگیریم با دقت در مراقبت از بیماران ادغامشان کنیم، نه جایگزینی برای قضاوت بالینی».
نویسندگان تاکید کردند افرادی که دچار بدتر شدن علائم یا نشانههای نگرانکننده هستند، از جمله درد قفسه سینه، تنگی نفس، واکنشهای شدید آلرژیک یا تغییرات در وضعیت روانی، باید مستقیما به خدمات پزشکی مراجعه کنند و فقط به راهنمایی چتبات اکتفا نکنند.
در این مطالعه همچنین آمده است که مدلهای زبانی هوشمصنوعی مدام در حال تحول و بهروزرسانی هستند و این یعنی عملکرد آنها میتواند در طول زمان تغییر کند.
تیاگی گفت که «شروع آموزش پزشکی در کنار ابزارهایی که همزمان با ما و در زمان واقعی در حال تغییرند روشن میکند که نتایج امروز قطعی و تغییرناپذیر نیست».
او افزود این واقعیت به سرعت در حال تغییر نیازمند ارزیابی مستمر است تا مطمئن شویم پیشرفتهای فناوری به مراقبتی ایمنتر تبدیل میشود.