مطالعه‌ای: هوش مصنوعی در تشخیص اولیه بیماران بیش از ۸۰ درصد موارد ناکام می‌ماند

یک پژوهش نشان میدهد چت‌باتهای هوش مصنوعی هنوز برای استفاده مستقیم بالینی آماده نیستند. - Copyright Cleared/Canva

تاریخ انتشار ۱۴/۰۴/۲۰۲۶ - ۹:۰۰ ‎+۲ گرینویچ

همرسانی

یک پژوهش جدید نشان می‌دهد مدل‌های زبانی هوش مصنوعی در بیش از ۸۰ درصد موارد تشخیص زودهنگام مناسبی ارائه نمی‌کنند و فعلا برای استفاده بالینی بدون نظارت ایمن نیستند.

یک مطالعه جدید نشان داده است که هوش مصنوعی مولد (AI) هنوز فرایندهای استدلالی لازم برای استفاده ایمن در محیط‌های بالینی را ندارد.

آگهی

به گفته پژوهشگران مرکز مس جنرال بریگم، شبکه بیمارستانی و پژوهشی غیرانتفاعی مستقر در بوستون و یکی از بزرگترین نظام‌های سلامت در ایالات متحده، ربات‌های گفت‌وگوی هوش مصنوعی هنگام مواجهه با اطلاعات کامل بالینی دقت تشخیصی خود را بهبود داده‌اند اما در بیش از ۸۰ درصد موارد همچنان از ارائه یک تشخیص افتراقی مناسب ناتوان مانده‌اند.

نتایج این تحقیق که در نشریه پزشکی دسترسی آزاد JAMA Network Open (منبع به زبان انگلیسی) منتشر شده نشان می‌دهد مدل‌های زبانی بزرگ (LLM) از سطح استدلال لازم برای استفاده بالینی فاصله دارند.

مارک سوچی، هم‌نویسنده این مطالعه، گفت: «با وجود بهبودهای مداوم، مدل‌های زبانی بزرگ آماده‌مصرف هنوز برای به‌کارگیری بالینی در سطح استاندارد و بدون نظارت مناسب نیستند».

او افزود که هوش مصنوعی هنوز قادر به بازتولید تشخیص افتراقی نیست؛ فرایندی که در قلب استدلال بالینی قرار دارد و او آن را «هنر پزشکی» می‌داند.

تشخیص افتراقی نخستین گام برای متخصصان سلامت در شناسایی یک وضعیت و تمایز آن از دیگر بیماری‌هایی است که علائم مشابه دارند.

مدل‌ها چگونه آزموده شدند

تیم پژوهش کارکرد ۲۱ مدل زبانی بزرگ از جمله جدیدترین نسخه‌های موجود Claude، DeepSeek، Gemini، GPT و Grok را تحلیل کرد.

آنها این مدل‌ها را با استفاده از ۲۹ سناریوی بالینی استاندارد و ابزاری تازه به نام PrIME-LLM ارزیابی کردند.

این ابزار توانایی مدل را در مراحل مختلف استدلال بالینی می‌سنجد: انجام تشخیص اولیه، درخواست آزمایش‌های مناسب، رسیدن به تشخیص نهایی و برنامه‌ریزی درمان.

برای شبیه‌سازی روند واقعی پرونده‌های بالینی، پژوهشگران اطلاعات را به تدریج در اختیار مدل‌ها گذاشتند؛ ابتدا داده‌های پایه مانند سن، جنس و علائم بیمار و سپس یافته‌های معاینه فیزیکی و نتایج آزمایشگاهی.

در دنیای واقعی تشخیص افتراقی برای گذار به مرحله بعد در محیط بالینی حیاتی است اما در این مطالعه به مدل‌ها اطلاعات اضافی داده شد تا حتی در صورت ناکامی در مرحله تشخیص افتراقی بتوانند به مرحله بعد بروند.

پژوهشگران دریافتند که مدل‌های زبانی در تشخیص نهایی به دقت بالا رسیدند اما در تولید تشخیص‌های افتراقی و مواجهه با عدم قطعیت عملکرد ضعیفی داشتند.

آریا رائو، نویسنده مطالعه، خاطرنشان کرد که ارزیابی مدل‌های زبانی بزرگ به صورت گام‌به‌گام رویکرد پژوهش را از برخورد با آنها به عنوان «داوطلبان آزمون» فراتر می‌برد و آنها را در جایگاه یک پزشک قرار می‌دهد.

او افزود: «این مدل‌ها وقتی داده‌ها کامل باشد در نام بردن از تشخیص نهایی بسیار خوب عمل می‌کنند اما در آغاز باز و مبهم یک پرونده، زمانی که هنوز اطلاعات چندانی در دست نیست، دچار مشکل می‌شوند».

پژوهشگران دریافتند همه این مدل‌ها در بیش از ۸۰ درصد موارد از ارائه یک تشخیص افتراقی مناسب ناتوان بودند.

در تشخیص نهایی، نرخ موفقیت بسته به مدل بین حدود ۶۰ درصد تا بیش از ۹۰ درصد متغیر بود.

بیشتر مدل‌های زبانی بزرگ وقتی علاوه بر متن، نتایج آزمایشگاهی و تصویربرداری نیز در اختیارشان قرار گرفت دقت بیشتری نشان دادند.

نتایج، خوشه‌ای با بهترین عملکرد را شناسایی کرد که شامل Grok 4، GPT-5، GPT-4.5، Claude 4.5 Opus، Gemini 3.0 Flash و Gemini 3.0 Pro بود.

نقش کلیدی متخصصان پزشکی همچنان پابرجاست

با این حال نویسندگان مقاله تاکید کردند که با وجود پیشرفت نسخه‌های جدید و مزیت مدل‌هایی که برای استدلال بهینه شده‌اند، مدل‌های زبانی بزرگ آماده‌مصرف هنوز به سطح هوشمندی لازم برای به‌کارگیری ایمن نرسیده‌اند و در نمایش استدلال بالینی پیشرفته محدودیت دارند.

سوچی تاکید کرد: «نتایج ما بار دیگر نشان می‌دهد که مدل‌های زبانی بزرگ در حوزه سلامت همچنان به حضور یک انسان در چرخه و نظارت بسیار نزدیک نیاز دارند».

سوسانا مانسو گارسیا، عضو گروه کار هوش مصنوعی و سلامت دیجیتال در انجمن اسپانیایی پزشکی خانواده و جامعه که در این مطالعه مشارکت نداشت، گفت نتایج پیام روشنی برای عموم دارد.

او گفت: «خود مطالعه تاکید می‌کند که این مدل‌های زبانی نباید برای تصمیم‌گیری بالینی بدون نظارت استفاده شوند. بنابر این هرچند هوش مصنوعی ابزاری امیدبخش است، قضاوت بالینی انسانی همچنان غیرقابل جایگزین است».

او افزود: «توصیه به عموم این است که از این فناوری‌ها با احتیاط استفاده کنند و در مواجهه با هر نگرانی درباره سلامت، همیشه با یک متخصص سلامت مشورت کنند».

رفتن به میانبرهای دسترسی

نظرها

مطالعه‌ای: هوش مصنوعی در تشخیص اولیه بیماران بیش از ۸۰ درصد موارد ناکام می‌ماند

یک پژوهش جدید نشان می‌دهد مدل‌های زبانی هوش مصنوعی در بیش از ۸۰ درصد موارد تشخیص زودهنگام مناسبی ارائه نمی‌کنند و فعلا برای استفاده بالینی بدون نظارت ایمن نیستند.

مدل‌ها چگونه آزموده شدند

نقش کلیدی متخصصان پزشکی همچنان پابرجاست

مطالب مرتبط

از تحلیل استخوان تا تاری دید: تاثیر سفر فضایی بر بدن انسان

پژوهش: تنها هفت روز مدیتیشن مغز را دگرگون میکند

افزایش شانس لقاح مصنوعی؛ اثر رژیم مدیترانه‌ای بر باکتری‌های واژن چیست؟

پوشش زنده. فارس: ۲ موشک به ناوچه آمریکا اصابت کرد؛ اکسیوس: مقام ارشد آمریکا حمله موشکی ایران را تکذیب کرد

پایان امپراتوری غریزه؛ آیا رابطه جنسی به یک «سرگرمی» صرف تبدیل خواهد شد؟

تکاپو برای ظهور «ابرقدرت سوم»؛ حضور نخست‌وزیر کانادا در اجلاس جامعه سیاسی اروپا به چه معناست؟

دستاورد بی‌سابقه در دنیای کوانتوم؛ دانشمندان «زمان منفی» را در آزمایشگاه اندازه‌گیری کردند

از «پروژه آزادی» ترامپ چه می‌دانیم؟