مطالعه: مدل‌های هوش مصنوعی در استدلال پزشکی پیچیده با پزشکان برابری می‌کنند

پژوهشگران دریافته‌اند که یک مدل هوش مصنوعی در بیشتر وظایف استدلال پزشکی از پزشکان انسانی بهتر عمل می‌کند. - Copyright Canva/Cleared

نگارش از Marta Iraola Iribarren

تاریخ انتشار ۰۵/۰۵/۲۰۲۶ - ۶:۵۵ ‎+۲ گرینویچ

نظرها

همرسانی

پژوهشگران دریافته‌اند که یک مدل هوش مصنوعی در بیشتر وظایف استدلال پزشکی، از تشخیص بیماری تا توصیه برای مدیریت بیماران، بهتر از پزشکان عمل می‌کند.

یک مطالعه جدید نشان می‌دهد مدل‌های هوش مصنوعی در تصمیم‌های پزشکی بخش اورژانس از پزشکان بهتر عمل کرده‌اند.

آگهی

پژوهشگران دانشکده پزشکی هاروارد و مرکز پزشکی بث ایزرائیل دیکانِس در آمریکا عملکرد هوش مصنوعی و پزشکان را در طیف گسترده‌ای از وظایف استدلال بالینی مقایسه کردند.

آنها دریافتند مدل‌های زبانی بزرگ (LLM) در چندین کار، از جمله تصمیم‌گیری‌های اورژانسی بر اساس اطلاعات موجود، شناسایی تشخیص‌های محتمل و انتخاب مراحل بعدی در مدیریت درمان، بهتر از پزشکان عمل کرده‌اند.

آرجون مانرای، یکی از نویسندگان ارشد و استاد دانشکده پزشکی هاروارد، گفت: «ما مدل هوش مصنوعی را تقریبا در برابر همه معیارها آزمودیم و این مدل هم از مدل‌های قبلی و هم از معیارهای مبتنی بر عملکرد پزشکان ما پیشی گرفت.»

او افزود: «با این حال این به آن معنا نیست که هوش مصنوعی الزاما مراقبت را بهبود می‌دهد؛ اینکه این فناوری چگونه و کجا باید به کار گرفته شود همچنان کمتر از حد لازم مطالعه شده و ما به شدت به کارآزمایی‌های آینده‌نگر و دقیق برای ارزیابی تاثیر هوش مصنوعی بر عمل بالینی نیاز داریم.»

مدل هوش مصنوعی چگونه آزمایش شد؟

پژوهشگران ابتدا مدل استدلال o1-preview متعلق به شرکت اوپن‌اِی‌آی را که در سال ۲۰۲۴ عرضه شد ارزیابی کردند و به آن مجموعه‌ای از پرونده‌های بالینی، از جمله نشست‌های موردی منتشرشده و گزارش‌های واقعی بخش اورژانس، ارائه دادند.

هوش مصنوعی در بیشتر آزمایش‌ها، به‌ویژه در استدلال مربوط به مدیریت درمان، استدلال بالینی، مستندسازی و همچنین در محیط‌های واقعی اورژانس با اطلاعات محدود، از پزشکان بهتر عمل کرد.

پیتر برودور، یکی از نویسندگان اصلی و فلو بالینی پزشکی دانشکده پزشکی هاروارد در مرکز پزشکی بث ایزرائیل دیکانِس، گفت: «توانمندی مدل‌ها مدام در حال افزایش است. پیش‌تر مدل‌ها را با آزمون‌های چندگزینه‌ای می‌سنجیدیم؛ اکنون آنها به طور ثابت نزدیک به ۱۰۰ درصد نمره می‌گیرند و دیگر نمی‌توانیم پیشرفت را دنبال کنیم چون به سقف رسیده‌ایم.»

در یکی از آزمون‌ها، پژوهشگران از مدل زبانی بزرگ o1 و GPT-4o خواستند بیماران را در مراحل مختلف یک روند استاندارد در بخش اورژانس، از تریاژ اولیه تا تصمیم‌های بعدی برای بستری، ارزیابی کنند.

در هر مرحله تنها اطلاعات همان زمان در اختیار مدل قرار گرفت و از آن خواسته شد تشخیص‌های محتمل را فهرست کند و توصیه کند چه اقدام بعدی باید انجام شود.

بزرگ‌ترین فاصله میان عملکرد هوش مصنوعی و پزشکان در مرحله تریاژ بود که در آن اطلاعات بیمار محدودتر است.

همانند پزشکان، با در دسترس قرار گرفتن اطلاعات بیشتر، توان تشخیصی مدل‌های هوش مصنوعی نیز بهبود پیدا کرد.

به نوشته نویسندگان مقاله: «گرچه استفاده از هوش مصنوعی برای کمک به پشتیبانی تصمیم‌گیری بالینی گاهی یک اقدام پرریسک تلقی می‌شود، افزایش استفاده از این ابزارها می‌تواند به کاهش هزینه‌های انسانی و مالی خطای تشخیصی، تاخیر در تشخیص و نبود دسترسی کمک کند.»

هنوز به پژوهش‌های بیشتری نیاز است

پژوهشگران خواستار اجرای کارآزمایی‌های آینده‌نگر برای ارزیابی این فناوری‌ها در شرایط واقعی و همچنین سرمایه‌گذاری نظام‌های سلامت در زیرساخت‌های محاسباتی و تدوین چارچوب‌هایی شدند که بتواند ادغام ایمن ابزارهای هوش مصنوعی در جریان کار بالینی را امکان‌پذیر کند.

برودور گفت: «ممکن است یک مدل تشخیص اصلی را درست حدس بزند اما در عین حال آزمایش‌های غیرضروری پیشنهاد کند که می‌تواند بیمار را در معرض آسیب قرار دهد. در ارزیابی عملکرد و ایمنی، انسان‌ها باید معیار نهایی باقی بمانند.»

این مطالعه محدودیت‌هایی هم دارد. نویسندگان تاکید کردند این کار تنها بازتاب‌دهنده عملکرد مدل است و عمدتا بر نسخه پیش‌نمایش مدل o1 تمرکز دارد؛ مدلی که اکنون جای خود را به مدل‌های جدیدتری مانند مدل o3 شرکت اوپن‌اِی‌آی داده است.

نویسندگان افزودند: «گرچه انتظار داریم عملکرد با مدل‌های جدید حفظ شود یا بهبود پیدا کند، مطالعات بیشتری باید انجام شود تا روشن شود عملکرد چگونه میان مدل‌های مختلف فرق می‌کند و نیز بررسی شود انسان‌ها و مدل‌های زبانی بزرگ چگونه می‌توانند با یکدیگر همکاری کنند.»

رفتن به میانبرهای دسترسی

نظرها

مطالعه: مدل‌های هوش مصنوعی در استدلال پزشکی پیچیده با پزشکان برابری می‌کنند

پژوهشگران دریافته‌اند که یک مدل هوش مصنوعی در بیشتر وظایف استدلال پزشکی، از تشخیص بیماری تا توصیه برای مدیریت بیماران، بهتر از پزشکان عمل می‌کند.

مدل هوش مصنوعی چگونه آزمایش شد؟

هنوز به پژوهش‌های بیشتری نیاز است

مطالب مرتبط

فرزندان افراد صدساله چه می‌خورند؟ نتایج یک پژوهش جدید

کمبود ثبات و کیفیت پایین خدمات درمانی پرستاران را به ترک شغل سوق می‌دهد

تایید یک مورد دیگر هانتاویروس در اسپانیا: دو مبتلا در قرنطینه مادرید

رسانه‌های ایران: اینترنت بین‌الملل وصل می‌شود

دانشمندان سرانجام راز مقاومت اهرام مصر در برابر زلزله‌های چندهزارساله را کشف کردند

از «رئیس‌جمهور حزب‌اللهی» تا ادعای «آدم اسرائیل» بودن؛ آیا احمدی‌نژاد نماد «نفوذ» است؟

توئیت کنایه آمیز کنسولگری ایران در واکنش به عکس مارکو روبیو؛ آیا تاج محل واقعا ریشه ایرانی دارد؟

مکان نامعلوم و شبکه پیک‌ها؛ سی‌بی‌اس: حتی مقامات ارشد ایران هم نمی‌دانند مجتبی خامنه‌ای کجاست