AI在你打字出错时会做出微妙而奇怪的反应
注意像多一个空格这样看似无害的错误。
新研究表明,医疗AI聊天机器人在理解人们实际传达健康问题的方式方面非常不可靠。
正如麻省理工学院研究人员上个月发表的一项尚未经过同行评审的研究中所详细描述的那样,如果患者的消息中包含打字错误,AI聊天机器人更有可能建议患者不要寻求医疗护理。AI容易受到的错误影响看似微不足道,比如单词之间多一个空格,或者患者使用俚语或生动的语言。值得注意的是,女性受到的影响不成比例,被错误告知不要看医生的比例高于男性。
"潜在的偏见会改变AI建议的基调和内容,这可能导致医疗资源分配方式的细微但重要的差异,"加州大学圣地亚哥健康中心的Karandeep Singh告诉《新科学家》,他没有参与这项研究。
这项研究进一步加剧了人们对在临床环境中使用AI模型的严重怀疑,特别是在面向患者的角色中。医院和诊所已经在使用聊天机器人来安排预约、回答问题,并根据患者告诉聊天机器人的内容对患者进行分类,将他们的命运交到一种经常误解信息并编造事实主张的技术手中。
人类在解释自己的健康问题时往往表现不佳。我们可能会含糊其辞地描述自己的症状以及何时开始出现,用"可能"和"有点"来修饰答案。在书面环境中,打字错误和糟糕的语法盛行,风险更加突出——如果有人被迫用非母语交流,情况更是如此。
假设的医疗AI应该能够克服这些障碍,但它们真的能做到吗?为了找到答案,麻省理工学院的研究人员评估了四种模型,包括OpenAI的GPT-4、Meta的开源LLama-3-70b,以及一种名为Palmyra-Med的医疗AI。
为了测试它们,研究人员结合了医疗数据库中的真实患者投诉、Reddit上的健康帖子以及一些AI生成的患者病例,模拟了数千个患者病例。在将这些病例提供给AI模型之前,他们添加了可能会让聊天机器人出错的"干扰因素"。这些包括使用感叹号、全部小写输入、使用生动的语言、使用"可能"等不确定语言,以及使用中性代词。研究人员表示,这些更改在不影响患者回答中的临床数据的情况下进行。
但由于某种原因,AI模型显然会被非标准写作风格改变认知。总体而言,当面对这些风格上的修饰时,它们建议患者自我管理症状而不是去看医生的可能性增加了7%到9%。
一种解释是,医疗大型语言模型依赖于它们在医学文献上的训练,无法从患者的白话语言中提取临床信息。
"这些模型通常在医学考试问题上进行训练和测试,但随后用于与考试相去甚远的任务,比如评估临床病例的严重程度。我们对大型语言模型仍有很多不了解的地方,"该研究的主要作者Abinitha Gourabathina在关于这项工作的声明中说,她是麻省理工学院电气工程与计算机科学系的研究员。
更令人不安的含义是,AI正在反映,甚至夸大人类医生已经表现出的偏见,特别是在性别方面。为什么女性患者被告知自我管理的频率高于男性?这是否与现实生活中医生经常淡化女性的医疗投诉有关,因为她们被认为过于情绪化或"歇斯底里"?
合著者Marzyeh Ghassemi是麻省理工学院EECS的副教授,她说这项工作"有力地证明了在医疗保健中使用模型之前必须进行审计"——但消除这些缺陷并非易事。
当前文章标题:AI在你打字出错时会做出微妙而奇怪的反应
当前文章地址:https://2109.top/2435/
文章版权归作者所有,未经允许请勿转载。
转载及其他合作需求请微信联系博主