麻省理工学院开发新测试评估医疗人工智能“记忆风险” |患者隐私保护的最前沿

麻省理工学院研究人员共同撰写的一篇论文在 2025 年神经信息处理系统会议上发表。该研究调查了人工智能模型在去识别化电子健康记录上进行训练以记住患者特定信息的潜力。

第一作者是麻省理工学院-哈佛布罗德研究所埃里克和温迪施密特中心的博士后 Sana Tonekaboni,麻省理工学院副教授 Marzier Ghassemi 在安利捷机器学习医学诊所领导了这项研究。

研究团队开发了一系列测试来评估隐私,并证明攻击者拥有的患者信息越多,模型信息泄露的风险就越大。在过去 24 个月中,美国卫生与公众服务部记录了 747 起健康数据泄露事件,影响了 500 多人,其中大多数是黑客和 IT 事件。该研究得到了国家科学基金会和谷歌研究学者奖的支持。

从: 麻省理工学院科学家研究临床人工智能时代的记忆风险麻省理工学院新闻

【编辑部评论】

在医疗人工智能的发展中,隐私保护不再只是技术挑战,而是走在伦理前沿。

麻省理工学院研究团队提出的“记忆风险”概念对于医疗领域的人工智能开发者来说是极其重要的警告。基于电子健康记录训练的基本模型本质上期望能够从大量患者数据中学习常见模式并提供更好的诊断支持。然而,这项研究表明事实上,模型可能会无意中“记住”某个特定个体的记录,并且可以通过巧妙的提问来检索信息。

特别值得注意的是研究团队开发的分层评估框架。基于并非所有数据泄露都具有相同风险的前提,我们根据攻击者所需的前期信息量和泄露信息的敏感性对风险进行分类。虽然年龄和性别等基本人口统计信息被泄露的风险相对较低,但艾滋病毒诊断或酗酒等敏感医疗信息的泄露可能会对患者的生活产生严重影响。

更为严重的是罕见病患者的脆弱性。即使使用匿名数据,症状组合越罕见,识别个体就越容易。这可以说是医疗AI面临的根本困境。

美国卫生与公众服务部过去 24 个月记录的 747 起数据泄露事件表明,随着医疗记录变得越来越数字化,网络攻击正在成为日常威胁。其中大部分是黑客攻击和IT相关事件,AI模型的信息泄露已成为仅靠传统安全措施无法防范的新风险。

这项研究的实用价值在于它作为开源工具包发布。医疗人工智能开发人员现在可以在发布模型之前使用该框架来评估记忆风险。这不仅仅是一份技术清单,更是保护患者信任的道德实践。

未来,研究团队计划将研究范围扩大到包括临床医生、隐私专家和法律专家。为了平衡技术进步与患者隐私保护,必须从多个角度持续进行讨论。医疗AI要为人类健康做出贡献,信任的基础不能动摇。

【术语解释】

电子健康记录 (EHR)
电子健康记录的缩写。这是一个以电子方式记录和管理患者诊断、治疗、用药和检查结果等医疗信息的系统。将纸质病历数字化可以实现医疗机构之间的信息共享和及时诊断,但适当的安全措施也至关重要。

基础模型
它是在大规模数据集上预训练的通用人工智能模型。学生不是专注于特定任务,而是学习可应用于各种应用的知识。在医学领域,它从大量患者数据中学习一般模式并用于支持诊断。

记忆化
这是一种人工智能模型“记住”特定个体数据而不是训练数据的一般模式的现象。本来,模型应该从大量数据中学习抽象知识,但当发生记忆时,特定的患者记录会被保留,从而产生隐私侵犯的风险。

[参考链接]

MIT(麻省理工学院)(外部)
位于美国马萨诸塞州的世界领先的理工科大学之一。以科学技术领域的创新研究而闻名。

布罗德研究所(外部)
隶属于麻省理工学院和哈佛大学的生物医学和基因组学研究中心。成立于2004年。

麻省理工学院 Abdul Latif Jameel 机器学习医疗诊所(外部)
成立于2018年。推动人工智能与生命科学交叉领域的临床人工智能和药物发现研究。

美国国家科学基金会 (NSF)(外部)
美国联邦政府的一个独立机构,成立于 1950 年。支持医学以外的基础科学和工程研究。

米国保健福祉省(HHS)(外部)
美国联邦政府部门。负责保护公众的健康和福利并监控医疗数据泄露。

NeurIPS(神经信息处理系统会议)(外部)
全球首屈一指的机器学习和计算神经科学国际学术会议,成立于1987年。

[参考文章]

2024 年医疗保健数据泄露报告 |健康保险流通与责任法案杂志(外部)
2024 年医疗保健数据泄露报告。超过 2.76 亿人受到 725 起重大违规行为的影响。

医疗保健数据泄露统计 |健康保险流通与责任法案杂志(外部)
2009 年以来的医疗数据泄露统计。6,759 起泄露事件泄露了超过 8.46 亿人的健康信息。

医疗保健基础模型中记忆风险的调查| arXiv(外部)
本研究的原始论文。详细介绍记忆风险评估方法和开源工具包。

临床人工智能时代的患者隐私 |科技探索(外部)
解释医疗人工智能中的患者隐私问题。指出了记忆风险的重要性。

[编者后记]

医疗人工智能的发展将显着改变我们管理健康的方式。但您还需要考虑您最敏感的信息被无意泄露的可能性。

如果您患有罕见疾病,即使在匿名数据中,您对被识别的风险有何感受?或者您认为优先考虑的是提高诊断准确性还是完善隐私保护?

这项研究提出的评估框架可能是塑造医疗人工智能未来的重要一步。您对医疗AI的发展有哪些期待和担忧?