两款基于大语言模型的AI智能体在虚拟测试中展示出媲美乃至超越医生的临床决策能力,但研究人员表示,目前尚不具备在真实医疗环境中部署的条件。
这两款智能体分别是由德国学术研究人员开发的MIRA,以及谷歌开发的AMIE,相关研究成果已发表于《自然》期刊。
研究表明,大语言模型在医疗领域具备成为综合性工具的潜力,能够承担诊断分析、患者管理、制定护理计划等任务,远超其目前在医疗场景中仅用于辅助诊断等单一功能的应用边界。
MIRA(医疗智能推理与行动系统)综合患者病史、实验室检验、影像及微生物检测数据,在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当,在部分病症(尤其是胰腺炎)的诊断上甚至表现更优。
此外,MIRA在手术操作排序、静脉输液管理及镇痛药使用等任务中同样优于医生,其99.8%的用药建议被评定为正确,治疗决策也与临床指南的吻合程度更高。
AMIE(医疗智能表达探索系统)则与全科医生进行了对比测试。结果显示,AMIE生成的治疗方案和检查计划评分更高、针对性更强,在多项指标上达到非劣效性标准,且在数值层面优于对照组。
两支研究团队均得出结论:尽管上述结果令人期待,但在投入真实临床实践之前,大语言模型仍需经过前瞻性研究的验证,尤其是在部分案例中仍存在与推荐做法相悖的情况。
爱丁堡大学健康信息学与数据科学教授朱莉·雅科对这两项研究给予了高度评价,认为两项研究均严谨扎实,但同时指出,这些性能表现是在模拟环境中取得的,无法完整还原"真实临床决策的复杂性"。
牛津大学社会学家凯瑟琳·波普教授也持相近观点,她表示,这些研究距离"日常医疗中混乱、复杂、充满人情味的真实世界"还有相当距离——在那里,医生往往需要应对不完整甚至相互矛盾的数据。
她补充道:"这些技术在现实中的应用,必须与临床医生协同推进。它们不太可能取代医生,况且许多人认为,AI在本质上无法也不应该替代医疗中至关重要的人文关怀。"
心脏病学家、斯克里普斯研究转化研究所所长埃里克·托波尔从临床视角提出了一个关键局限:MIRA和AMIE均为纯文本AI,"也就是说,医疗实践中的诸多要素——从患者的非语言表达和语气,到实际医学影像的读取——都未被纳入其中。"
他同时表示:"这些大语言模型将持续进化。事实上,上述两篇论文中使用的模型已经过时。可以将MIRA和AMIE视为在模拟条件约束下迈出的重要一步,而非真正意义上的临床医学。但AI能力的提升速度极快,将这些优势延伸至真实医疗实践,或许并不遥远。"
Q&A
Q1:MIRA在临床诊断中的准确率如何?
A:MIRA在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当,在部分病症上表现更优,尤其是胰腺炎的诊断。此外,其99.8%的用药建议被评定为正确,治疗决策与临床指南的吻合程度也高于对照医生组。
Q2:AMIE与全科医生相比,表现如何?
A:AMIE生成的治疗方案和检查计划在评分和针对性上均优于全科医生,在多项指标上达到非劣效性标准,且在数值层面表现更优。但研究团队强调,这些结果来自模拟环境,尚需前瞻性研究验证,才能真正应用于临床实践。
Q3:MIRA和AMIE目前能否在真实医疗场景中使用?
A:目前还不能。研究人员指出,这两款智能体均在模拟环境中测试,无法完整反映真实临床的复杂性。此外,两者均为纯文本AI,无法处理医学影像或捕捉患者的非语言信息。专家普遍认为,未来应用需与临床医生协同,而非替代医生。