یک پژوهش جدید نشان میدهد مدلهای زبانی هوش مصنوعی در بیش از ۸۰ درصد موارد تشخیص زودهنگام مناسبی ارائه نمیکنند و فعلا برای استفاده بالینی بدون نظارت ایمن نیستند.
یک مطالعه جدید نشان داده است که هوش مصنوعی مولد (AI) هنوز فرایندهای استدلالی لازم برای استفاده ایمن در محیطهای بالینی را ندارد.
به گفته پژوهشگران مرکز مس جنرال بریگم، شبکه بیمارستانی و پژوهشی غیرانتفاعی مستقر در بوستون و یکی از بزرگترین نظامهای سلامت در ایالات متحده، رباتهای گفتوگوی هوش مصنوعی هنگام مواجهه با اطلاعات کامل بالینی دقت تشخیصی خود را بهبود دادهاند اما در بیش از ۸۰ درصد موارد همچنان از ارائه یک تشخیص افتراقی مناسب ناتوان ماندهاند.
نتایج این تحقیق که در نشریه پزشکی دسترسی آزاد JAMA Network Open (منبع به زبان انگلیسی) منتشر شده نشان میدهد مدلهای زبانی بزرگ (LLM) از سطح استدلال لازم برای استفاده بالینی فاصله دارند.
مارک سوچی، همنویسنده این مطالعه، گفت: «با وجود بهبودهای مداوم، مدلهای زبانی بزرگ آمادهمصرف هنوز برای بهکارگیری بالینی در سطح استاندارد و بدون نظارت مناسب نیستند».
او افزود که هوش مصنوعی هنوز قادر به بازتولید تشخیص افتراقی نیست؛ فرایندی که در قلب استدلال بالینی قرار دارد و او آن را «هنر پزشکی» میداند.
تشخیص افتراقی نخستین گام برای متخصصان سلامت در شناسایی یک وضعیت و تمایز آن از دیگر بیماریهایی است که علائم مشابه دارند.
مدلها چگونه آزموده شدند
تیم پژوهش کارکرد ۲۱ مدل زبانی بزرگ از جمله جدیدترین نسخههای موجود Claude، DeepSeek، Gemini، GPT و Grok را تحلیل کرد.
آنها این مدلها را با استفاده از ۲۹ سناریوی بالینی استاندارد و ابزاری تازه به نام PrIME-LLM ارزیابی کردند.
این ابزار توانایی مدل را در مراحل مختلف استدلال بالینی میسنجد: انجام تشخیص اولیه، درخواست آزمایشهای مناسب، رسیدن به تشخیص نهایی و برنامهریزی درمان.
برای شبیهسازی روند واقعی پروندههای بالینی، پژوهشگران اطلاعات را به تدریج در اختیار مدلها گذاشتند؛ ابتدا دادههای پایه مانند سن، جنس و علائم بیمار و سپس یافتههای معاینه فیزیکی و نتایج آزمایشگاهی.
در دنیای واقعی تشخیص افتراقی برای گذار به مرحله بعد در محیط بالینی حیاتی است اما در این مطالعه به مدلها اطلاعات اضافی داده شد تا حتی در صورت ناکامی در مرحله تشخیص افتراقی بتوانند به مرحله بعد بروند.
پژوهشگران دریافتند که مدلهای زبانی در تشخیص نهایی به دقت بالا رسیدند اما در تولید تشخیصهای افتراقی و مواجهه با عدم قطعیت عملکرد ضعیفی داشتند.
آریا رائو، نویسنده مطالعه، خاطرنشان کرد که ارزیابی مدلهای زبانی بزرگ به صورت گامبهگام رویکرد پژوهش را از برخورد با آنها به عنوان «داوطلبان آزمون» فراتر میبرد و آنها را در جایگاه یک پزشک قرار میدهد.
او افزود: «این مدلها وقتی دادهها کامل باشد در نام بردن از تشخیص نهایی بسیار خوب عمل میکنند اما در آغاز باز و مبهم یک پرونده، زمانی که هنوز اطلاعات چندانی در دست نیست، دچار مشکل میشوند».
پژوهشگران دریافتند همه این مدلها در بیش از ۸۰ درصد موارد از ارائه یک تشخیص افتراقی مناسب ناتوان بودند.
در تشخیص نهایی، نرخ موفقیت بسته به مدل بین حدود ۶۰ درصد تا بیش از ۹۰ درصد متغیر بود.
بیشتر مدلهای زبانی بزرگ وقتی علاوه بر متن، نتایج آزمایشگاهی و تصویربرداری نیز در اختیارشان قرار گرفت دقت بیشتری نشان دادند.
نتایج، خوشهای با بهترین عملکرد را شناسایی کرد که شامل Grok 4، GPT-5، GPT-4.5، Claude 4.5 Opus، Gemini 3.0 Flash و Gemini 3.0 Pro بود.
نقش کلیدی متخصصان پزشکی همچنان پابرجاست
با این حال نویسندگان مقاله تاکید کردند که با وجود پیشرفت نسخههای جدید و مزیت مدلهایی که برای استدلال بهینه شدهاند، مدلهای زبانی بزرگ آمادهمصرف هنوز به سطح هوشمندی لازم برای بهکارگیری ایمن نرسیدهاند و در نمایش استدلال بالینی پیشرفته محدودیت دارند.
سوچی تاکید کرد: «نتایج ما بار دیگر نشان میدهد که مدلهای زبانی بزرگ در حوزه سلامت همچنان به حضور یک انسان در چرخه و نظارت بسیار نزدیک نیاز دارند».
سوسانا مانسو گارسیا، عضو گروه کار هوش مصنوعی و سلامت دیجیتال در انجمن اسپانیایی پزشکی خانواده و جامعه که در این مطالعه مشارکت نداشت، گفت نتایج پیام روشنی برای عموم دارد.
او گفت: «خود مطالعه تاکید میکند که این مدلهای زبانی نباید برای تصمیمگیری بالینی بدون نظارت استفاده شوند. بنابر این هرچند هوش مصنوعی ابزاری امیدبخش است، قضاوت بالینی انسانی همچنان غیرقابل جایگزین است».
او افزود: «توصیه به عموم این است که از این فناوریها با احتیاط استفاده کنند و در مواجهه با هر نگرانی درباره سلامت، همیشه با یک متخصص سلامت مشورت کنند».