ChatGPT在诊断医疗症状上是真的畏人的

标签:
it杂谈 |
ChatGPT在诊断医疗症状上是真的畏人的
By
大型语言模型让医疗呼叫更往往错的而不是不是。
当您通过我们网站上的链接购买时,我们可能会获得一个联盟佣金.

艺术家的一位穿着实验服的机器人医生的印象。(Image credit: Marko Aliksandr via Shutterstock)
一项新的研究揭示ChatGPT的医学诊断准确的不到一半。
科学家们要求人工智能聊天机器人来评估来自医疗网站医疗场景(Medscape)的150个案例研究并发现了GPT 3.5(当它2022年推出时为ChatGPT提供动力)只能在49%的时间给出一个正确的诊断。
之前的研究表明了聊天机器人可以刮过一个美国医疗执照考试(USMLE),一个被它的作者誉为“人工智能成熟中的一个显著里程碑”的发现。
但在7月31日发表在《公共科学图书馆》杂志上的这项新研究中,科学家们警告了反对需要人类认可的复杂医疗病例依靠聊天机器人。
安大略省西部大学舒利奇医学与牙科学院的儿科肾病科医生、高级研究作者吉尔帕拉尼(Amrit Kirpalani)博士告诉《生活科学》杂志,“如果人们被恐惧、困惑或者只是不能够获得护理,他们可能是依赖在一种似乎能为他们提供‘量身定制’的医疗建议的工具上,我认为作为一个医学界(以及更大的科学界),关于教育公众这些工具在这方面中的限制我们需要是主动的。它们还不应该取代你的医生” 。
ChatGPT的来分发信息的能力基于它的训练数据。从Common Crawl存储库刮取的570GB的文本数据馈入2022年的模型量达约3000亿个单词,这些单词取自书籍、在线文章、维基百科和其他网页。
人工智能系统在单词中发现它们被训练在上的来预测接下来可能跟着它们的来提供一个对一个提示或问题的答案。理论上,这使它们对医学生和寻求复杂医学问题简单答案的患者是帮助的,但机器人的来“幻觉”倾向——完全的编造响应——限制它们的在医学诊断中的有用性。
为评估ChatGPT的医疗建议的准确性,研究人员向该模型提交了150个不同的案例研究,包括被打算来挑战实习医生的诊断能力的患者病史、体检发现和取自实验室的图像。聊天机器人在响应它的诊断和一个研究人员评定为准确的和清晰的治疗计划之前从四个多项选择结果选择了一个。
RELATED STORIES
—AI's 'unsettling' rollout is exposing its flaws. How concerned should we be?
—In a 1st, scientists combine AI with a 'minibrain' to make hybrid computer
—Want
to ask ChatGPT about your kid's symptoms? Think again — it's right
only 17% of the time
结果是缺乏光泽的,ChatGPT在医学准确性上响应错误多于正确,而它在52%的时间中给出了完整的和相关的结果。尽管如此,聊天机器人的总体准确率远更高在74%上,这意味着它可以远更可靠的识别和丢弃错误的多项选择题答案。
研究人员说这种可怜的表现的一个原因可能是人工智能没有被训练在一个足够大的临床数据集上,使不能够处理来自多个测试的结果并避免像人类医生那样绝对有效的应对。
尽管它的缺点,研究人员说人工智能和聊天机器人在教患者和实习医生中仍然有用——提供人工智能系统被监督和它们的声称被伴随有一些健康的事实检查。
吉尔帕拉尼说,“如果你回到来自1995年左右的医学期刊出版物,你能看到很同样的话语正在万维网上发生。有关于有趣案例的新出版物,也有怀疑至于这是否只是一种时尚的论文。我认为对人工智能特别是聊天机器人,医学界将最终发现对增强临床决策、流线化管理任务和增强患者参与度有一个巨大的潜力” 。