研究发现:大型多模态模型在医疗问答中表现不如随机猜测
加州大学圣克鲁兹分校和卡内基梅隆大学的一项最新研究对大型多模态模型(LMMs)在医疗领域的可靠性提出了质疑。该研究名为“不如随机?大型多模态模型在医疗视觉问答中的简单探针评估”,发现如GPT-4V和Gemini Pro等顶尖LMMs在医疗诊断问题上的表现甚至不如随机猜测。研究引入了医疗诊断探针评估(ProbMed)数据集,通过探针评估和程序诊断来评估LMM在医疗影像中的表现,揭示了当前模型处理精细医疗查询能力的显著局限性。
关键发现
- LMMs的表现: 研究发现,如GPT-4V和Gemini Pro等顶级模型在专业诊断问题上的表现不如随机猜测。
- ProbMed数据集: 引入了一个新数据集,严格评估LMM在医疗影像中的表现,通过探针评估和程序诊断。
- 对抗性对: 研究在评估过程中使用对抗性对来测试模型的鲁棒性和可靠性,揭示了当引入这些对时,准确性显著下降。
- 领域特定知识: 像CheXagent这样的模型,经过特定模式的训练,展示了在同一器官的不同模式之间转移专业知识的能力,强调了特定领域知识的重要性。
深入分析
该研究使用ProbMed数据集对七个顶尖LMMs进行了系统评估,以识别它们在实际影像诊断中的强项和弱点。评估包括通用和专业模型,重点关注它们回答与医疗影像相关问题的能力。
引入的对抗性对,即设计用来挑战模型验证某些特征不存在能力的问题-答案对,对模型表现产生了显著影响。某些模型的准确性大幅下降,当对抗性对被加入VQA-RAD数据集时,测试模型的平均准确性下降了42.7%,在ProbMed中平均下降了44.7%。
研究还揭示,即使是最稳健的模型在面对ProbMed的挑战性问题时,其准确性也至少下降了10.52%。这突显了探针评估在全面评估医疗视觉问答(Med-VQA)表现中的关键作用。
对公众信心和资金的影响
该研究的发现不仅具有技术意义,还具有更广泛的社会和经济后果。以下是关于影响的一些额外考虑:
-
医疗AI的公众信心: 高级LMMs在某些医疗问题上的表现不如随机猜测的发现可能会削弱公众对AI驱动医疗工具有效性和安全性的信心。信任是医疗保健的关键组成部分,如果患者相信这些系统可靠且准确,他们更可能采用并受益于AI技术。
-
对资金和投资的影响: 医疗AI行业严重依赖投资来推动研发。这样的负面发现可能导致投资者信心下降,从而减少对初创企业和成熟公司的资金支持。这可能会减缓创新和潜在救生技术开发的步伐。
-
监管影响: 随着对LMMs在医疗诊断中可靠性的担忧增加,监管机构可能会面临加大指导和监督的压力。这可能导致对新医疗AI技术审批采取更谨慎的态度,可能延迟其对患者的可用性。
-
伦理考虑: 医疗保健中AI的伦理使用至关重要。如果发现LMMs不可靠,这将引发关于开发者和医疗保健提供者在临床使用前确保AI系统经过彻底测试和验证的伦理责任的疑问。
-
患者安全和结果: 最终,最大的影响在于患者安全和健康结果。如果医疗AI系统不可靠,它们可能会提供错误信息或诊断,可能导致不当治疗或延误治疗,这对患者可能产生严重后果。
-
市场动态: 研究的发现也可能影响医疗AI市场的竞争格局。拥有稳健、经过充分验证产品的公司可能获得竞争优势,而那些产品可靠性较低的公司可能难以维持其市场地位。
-
研究优先级: 结果可能促使研究优先级转移,更多关注开发和验证稳健的评估方法,以及将领域特定专业知识整合到AI模型中,以提高它们在医疗应用中的可靠性和性能。
鉴于这些潜在影响,医疗AI社区透明和主动地解决这些关切至关重要。关于AI技术当前局限性的开放沟通,以及对持续改进和验证的承诺,将是维持公众信任和确保AI在医疗保健未来发展的关键。
你知道吗?
- 专业知识的转移性: 研究发现,通过胸部X光获得的专业知识可以零样本方式转移到同一器官的其他影像模式,表明在实际医疗影像诊断中跨模式专业知识转移的潜力。
- 稳健评估的重要性: 研究强调了在如医疗诊断等关键领域确保LMMs可靠性的迫切需要更稳健的评估。
- 对医疗保健的潜在影响: 该研究的发现对提高诊断准确性和患者护理有更广泛的影响,但也突出了在医疗保健中部署不可靠模型的风险。
总之,该研究强调了严格测试、持续性能监控以及将领域特定专业知识纳入以增强医疗保健中可信赖AI系统开发的重要性,并最终改善患者结果。