研究表明:ChatGPT 在急诊护理中竟过度开药
加州大学旧金山分校的一项新研究发现,如果在急诊科启用 ChatGPT,它或许会给部分患者提议进行不必要的 X 光检查和使用抗生素,还可能让无需住院治疗的其他患者住院。
研究人员表示,虽然可以通过某些方式提示该模型,使其回答更准确,但它仍然无法与人类医生的临床判断相媲美。
“这对于临床医生而言是一则有价值的消息,切勿盲目信赖这些模型,”该研究的主要作者、博士后学者克里斯·威廉姆斯(Chris Williams)说,他拥有医学学士学位和外科学学士学位。该研究于 10 月 8 日发表在《自然通讯》(Nature Communications)杂志上。“ChatGPT 可以回答医学考试问题,并帮助起草临床笔记,但它目前还不是为需要多重考虑的情况而设计的,比如急诊科的情况。”
最近,威廉姆斯表明,ChatGPT 是一种可用于研究人工智能临床应用的大型语言模型(LLM),在确定两名急诊患者中哪一位病情最为危急这一方面,略优于人类,这是在患者 A 和患者 B 之间做出的直接选择。
在此次研究中,威廉姆斯给人工智能模型出了道难题,让它去完成一项更为复杂的任务:提供医生在急诊科初步检查患者后给出的建议。这涵盖了决定是否让患者住院、做 X 光或其他扫描,亦或是开抗生素。
对于这三个决策中的每一个,该团队从超过 251,000 次就诊的档案中整理出了 1000 次急诊就诊记录进行分析。这些集合里有关住院、放射学和抗生素的“是”或“否”回答的比例,跟加州大学旧金山分校健康急诊科的状况一致。
借助加州大学旧金山分校有着广泛隐私保护的安全生成式人工智能平台,研究人员将每位患者的症状和检查结果的医生记录输入到 ChatGPT-3.5 和 ChatGPT-4 中。然后,他们通过一系列越来越详细的提示来测试每组的准确性。
总的来说,人工智能模型推荐服务的频率往往高于实际所需。ChatGPT-4 的准确率比住院医师低 8%,ChatGPT-3.5 则低 24%。
威廉姆斯表示,人工智能过度推荐的倾向可能是因为这些模型是在互联网上训练的,合法的医疗建议网站并非旨在回答紧急医疗问题,而是旨在将读者引导给能够解答的医生。
“这些模型几乎被微调为‘寻求医疗建议’这一说法,从一般公共安全的角度来看,这是非常正确的,”他说。“但在急诊室这种环境中,过于谨慎并非总是恰当的,不必要的干预可能会给患者带来伤害,耗费资源,还会增加患者的成本。”
他表示,像 ChatGPT 这样的模型在为急诊室做好准备之前,将需要更好的框架来评估临床信息。设计这些框架的人员需要在确保人工智能不会遗漏严重问题的同时,避免引发不必要的检查和费用,从而取得平衡。
“没有完美的解决方案,”他说,“但知道像 ChatGPT 这样的模型有这些倾向,我们有责任去思考我们期望它们在临床实践中的表现。”