پژوهشگران دریافتهاند که یک مدل هوش مصنوعی در بیشتر وظایف استدلال پزشکی، از تشخیص بیماری تا توصیه برای مدیریت بیماران، بهتر از پزشکان عمل میکند.
یک مطالعه جدید نشان میدهد مدلهای هوش مصنوعی در تصمیمهای پزشکی بخش اورژانس از پزشکان بهتر عمل کردهاند.
پژوهشگران دانشکده پزشکی هاروارد و مرکز پزشکی بث ایزرائیل دیکانِس در آمریکا عملکرد هوش مصنوعی و پزشکان را در طیف گستردهای از وظایف استدلال بالینی مقایسه کردند.
آنها دریافتند مدلهای زبانی بزرگ (LLM) در چندین کار، از جمله تصمیمگیریهای اورژانسی بر اساس اطلاعات موجود، شناسایی تشخیصهای محتمل و انتخاب مراحل بعدی در مدیریت درمان، بهتر از پزشکان عمل کردهاند.
آرجون مانرای، یکی از نویسندگان ارشد و استاد دانشکده پزشکی هاروارد، گفت: «ما مدل هوش مصنوعی را تقریبا در برابر همه معیارها آزمودیم و این مدل هم از مدلهای قبلی و هم از معیارهای مبتنی بر عملکرد پزشکان ما پیشی گرفت.»
او افزود: «با این حال این به آن معنا نیست که هوش مصنوعی الزاما مراقبت را بهبود میدهد؛ اینکه این فناوری چگونه و کجا باید به کار گرفته شود همچنان کمتر از حد لازم مطالعه شده و ما به شدت به کارآزماییهای آیندهنگر و دقیق برای ارزیابی تاثیر هوش مصنوعی بر عمل بالینی نیاز داریم.»
مدل هوش مصنوعی چگونه آزمایش شد؟
پژوهشگران ابتدا مدل استدلال o1-preview متعلق به شرکت اوپناِیآی را که در سال ۲۰۲۴ عرضه شد ارزیابی کردند و به آن مجموعهای از پروندههای بالینی، از جمله نشستهای موردی منتشرشده و گزارشهای واقعی بخش اورژانس، ارائه دادند.
هوش مصنوعی در بیشتر آزمایشها، بهویژه در استدلال مربوط به مدیریت درمان، استدلال بالینی، مستندسازی و همچنین در محیطهای واقعی اورژانس با اطلاعات محدود، از پزشکان بهتر عمل کرد.
پیتر برودور، یکی از نویسندگان اصلی و فلو بالینی پزشکی دانشکده پزشکی هاروارد در مرکز پزشکی بث ایزرائیل دیکانِس، گفت: «توانمندی مدلها مدام در حال افزایش است. پیشتر مدلها را با آزمونهای چندگزینهای میسنجیدیم؛ اکنون آنها به طور ثابت نزدیک به ۱۰۰ درصد نمره میگیرند و دیگر نمیتوانیم پیشرفت را دنبال کنیم چون به سقف رسیدهایم.»
در یکی از آزمونها، پژوهشگران از مدل زبانی بزرگ o1 و GPT-4o خواستند بیماران را در مراحل مختلف یک روند استاندارد در بخش اورژانس، از تریاژ اولیه تا تصمیمهای بعدی برای بستری، ارزیابی کنند.
در هر مرحله تنها اطلاعات همان زمان در اختیار مدل قرار گرفت و از آن خواسته شد تشخیصهای محتمل را فهرست کند و توصیه کند چه اقدام بعدی باید انجام شود.
بزرگترین فاصله میان عملکرد هوش مصنوعی و پزشکان در مرحله تریاژ بود که در آن اطلاعات بیمار محدودتر است.
همانند پزشکان، با در دسترس قرار گرفتن اطلاعات بیشتر، توان تشخیصی مدلهای هوش مصنوعی نیز بهبود پیدا کرد.
به نوشته نویسندگان مقاله: «گرچه استفاده از هوش مصنوعی برای کمک به پشتیبانی تصمیمگیری بالینی گاهی یک اقدام پرریسک تلقی میشود، افزایش استفاده از این ابزارها میتواند به کاهش هزینههای انسانی و مالی خطای تشخیصی، تاخیر در تشخیص و نبود دسترسی کمک کند.»
هنوز به پژوهشهای بیشتری نیاز است
پژوهشگران خواستار اجرای کارآزماییهای آیندهنگر برای ارزیابی این فناوریها در شرایط واقعی و همچنین سرمایهگذاری نظامهای سلامت در زیرساختهای محاسباتی و تدوین چارچوبهایی شدند که بتواند ادغام ایمن ابزارهای هوش مصنوعی در جریان کار بالینی را امکانپذیر کند.
برودور گفت: «ممکن است یک مدل تشخیص اصلی را درست حدس بزند اما در عین حال آزمایشهای غیرضروری پیشنهاد کند که میتواند بیمار را در معرض آسیب قرار دهد. در ارزیابی عملکرد و ایمنی، انسانها باید معیار نهایی باقی بمانند.»
این مطالعه محدودیتهایی هم دارد. نویسندگان تاکید کردند این کار تنها بازتابدهنده عملکرد مدل است و عمدتا بر نسخه پیشنمایش مدل o1 تمرکز دارد؛ مدلی که اکنون جای خود را به مدلهای جدیدتری مانند مدل o3 شرکت اوپناِیآی داده است.
نویسندگان افزودند: «گرچه انتظار داریم عملکرد با مدلهای جدید حفظ شود یا بهبود پیدا کند، مطالعات بیشتری باید انجام شود تا روشن شود عملکرد چگونه میان مدلهای مختلف فرق میکند و نیز بررسی شود انسانها و مدلهای زبانی بزرگ چگونه میتوانند با یکدیگر همکاری کنند.»