人工智能聊天机器人失败于通过与患者交谈来诊断患者

标签:
it杂谈 |
人工智能聊天机器人失败于通过与患者交谈来诊断患者
尽管流行的人工智能模型在医学检查上分数高的,但当基于与一个模拟的患者对话做出一个诊断时它们的准确性显著的跌落
新科学家 By
2 January 2025

只是还不要叫你的喜好的人工智能“医生”。Just_Super/Getty Images
先进的人工智能模型在专业医学检查上分数很好,但仍然不及格最重要的医生任务之一:与患者交谈来收集相关的医疗信息并提交一个准确的诊断。
哈佛大学的拉吉婆卡尔(Pranav Rajpurkar )说,虽然大型语言模型在多项选择测试上显示令人印象深刻的结果,但它们在动态对话中的准确性显著的跌落,这些模型特别的挣扎于开放末端的诊断推理” 。
当研究人员开发了一个评估一个基于患者的医生患者对话的人工智能模型的推理能力时这变得明显的”。患者是基于从美国医学委员会的专业考试抽的2000个医疗案例。
也在哈佛大学的约里(Shreya Johri) 说,“模拟患者互动使评估病史采集技能成为可能,一个不能被用病例小插图评估的临床实践的关键成分” ,她说叫CRAFT-MD 的新评估基准也“镜像现实生活的场景,其中患者可能不知道哪些细节对共享是至关重要的并且仅当被在特定问题提示时披露重要信息”。
CRAFT-MD 基准测试本身依赖人工智能。OpenAI 的 GPT-4 模型在与被测试的“临床人工智能”对话中起一个“患者人工智能”的角色。GPT-4 还通过将临床人工智能的诊断与每个案例的正确答案比较帮助了定级结果。人类医学专家双倍检查了这些评估。他们还审查了对话来检查患者人工智能的准确性,并看是否临床人工智能设法来收集相关的医疗信息。
多项实验表明了四种领先的大型语言模型——OpenAI 的 GPT-3.5 和 GPT-4 模型、元的 Llama-2-7b 模型和 Mistral AI 的 Mistral-v2-7b 模型——在基于对话的基准测试中表现的比它们当基于病例的书面摘要做出诊断时更糟。OpenAI、元和 Mistral AI 没有回应置评请求。
例如,GPT-4 的诊断准确率当被呈现结构化病例摘要并允许从多项选择答案列表中来选择诊断时是一个令人印象深刻的82%,失败于当它没有多项选择选项时刚好在49%之下。然而,当它不得不从模拟的患者对话做出诊断时它的准确率跌落到只有 26%。
GPT-4 是在研究中测试性能最好的人工智能模型,GPT-3.5 往往排在第二位,Mistral AI 模型有时排在第二或第三位,而元的 Llama 模型一般得分最低。
人工智能模型很大一部分时间还失败于来收集完整的病史,领先模型 GPT-4 仅在 71% 的模拟患者对话中做到了。甚至当人工智能模型确实收集了一个患者的相关病史时它们并不总是产生正确的诊断。
加利福尼亚州斯克里普斯研究转化研究所(Scripps Research Translational Institute)的埃里克·托波尔(Eric Topol)说,这种模拟的患者对话代表一种比医学检查远更“有用”的来评估人工智能临床推理能力的方法。
拉吉婆卡尔说,如果 一个人工智能模型最终通过了这一基准,始终如一基于模拟的患者对话做出准确的诊断,这并不一定使它优于一个人类医生。他指出现实世界中的医疗实践比模拟中“更混乱”。它涉及管理多名患者、与医疗团队协调、进行体检以及了解在当地医疗状况中的“复杂的社会和系统因素”。
拉吉婆卡尔说,“在我们基准上的强表现将提示人工智能可以是一个支持临床工作的强大工具,但不一定一个替代经验丰富的医生的整体判断”。
期刊参考:Nature
Medicine
https://www.newscientist.com/article/2462356-ai-chatbots-fail-to-diagnose-patients-by-talking-with-them/