语言 ▾
中文EN

人工智能检测射血分数保留的心力衰竭的外部验证

发布时间:  2025-04-17 16:04:15



2025年3月25日,A. Akerman等人在《Nature Communications》杂志上发表了一篇题为《External validation of artificial intelligence for detection of heart failure with preserved ejection fraction》的文章。本研究旨在通过外部验证评估一种基于深度学习的超声心动图人工智能模型(EchoGo Heart Failure v2)在检测射血分数保留型心力衰竭(HFpEF)中的诊断性能,并与现有的多参数临床评分系统(H2FPEF和HFA-PEFF)进行比较。

研究背景

HFpEF占所有心衰病例的约50%,但因缺乏统一诊断标准、超声心动图参数复杂且存在中间分类(Indeterminate)问题,临床诊断困难。现有临床评分(如H2FPEF和HFA-PEFF)依赖多参数组合,但存在高中间分类率(30%以上)和依赖完整数据的问题。AI模型(如EchoGo Heart Failure v1)此前通过深度学习单切面超声心动图视频在内部验证中表现出高敏感性(87.8%)和特异性(81.9%),但需进一步外部验证以确认其在不同医疗机构中的表现。

数据来源

研究纳入2018-2022年间在BIDMC接受超声心动图(TTE)检查的患者。病例组(n=240)为经临床确诊的HFpEF患者(LVEF≥50%,且符合AHA/ACC/HFSA指南标准),对照组(n=256)按年龄、性别和超声心动图年份匹配,且无HF住院史。病例通过病历回顾确认,包括HF住院记录(ICD-9/10编码)和超声参数。排除标准包括图像质量差(约5%)或LVEF<50%。病例和对照组基线特征显示,病例组更多合并高血压(87.1% vs. 69.5%)、糖尿病(41.7% vs. 21.5%)、慢性肾病(47.5% vs. 14.5%)及使用利尿剂(65.8% vs. 14.1%),且超声参数更异常(p<0.05)。

研究方法

研究采用多种统计学方法全面评估AI模型的诊断性能及其临床价值。首先,通过受试者工作特征曲线下面积(AUROC)量化模型的区分度,并与H2FPEF、HFA-PEFF评分进行对比,使用DeLong检验分析AUROC的统计学差异。校准性能通过校准曲线、截距和斜率参数评估预测概率与实际观察概率的一致性,并辅以Hosmer-Lemeshow检验验证拟合优度。分类能力的计算考虑了中间分类的影响,分别报告了“忽略中间分类”(和“仅诊断分类”两种场景下的敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。为进一步比较AI模型与现有评分的增量价值,研究采用净重分类改善指数(NRI)和综合判别改善指数(IDI)进行再分类分析。临床实用性方面,通过决策曲线分析模拟不同诊断阈值下的净收益(Net Benefit),以量化减少不必要干预的潜力。患者预后分析采用Cox比例风险模型评估AI模型预测类别(阳性、中间、阴性)与复合终点(全因死亡+心衰住院)的关联,风险比(HR)以95%置信区间(CI)报告;同时使用Fine-Gray模型处理竞争风险。亚组分析按年龄、性别、种族及合并症分层,检验模型性能的一致性。


结果

01

研究人群的基线特征

最终样本为240例病例和256例对照(图1)。所有病例在手动图表审查中均在前一年内患有HF,所有对照在指数TTE之前或之后的一年内均未出现HF。总体而言,病例(平均值±SD;74.2±12.1岁,54.2%为女性)和对照(75.0±13.0岁,55.1%为女性)的年龄和性别分布与匹配预期的相似。病例组的估计肾小球滤过率较低,NT-proBNP值较高,治疗中胆固醇较低,并且更频繁地使用心脏活性药物,包括β受体阻滞剂、他汀类药物、盐皮质激素抑制剂、钙通道阻滞剂、抗血栓药、袢利尿剂和硝酸盐(所有p < 0.05)。

02

模型判别与校准

AI HFpEF模型(AUROC:0.798,95% CI 0.756–0.799)与H2FPEF评分(AUROC:0.788,0.745–0.798,差异:p = 0.71;图2)的鉴别力相似。AI HFpEF模型和H2FPEF评分均显示出相似的校准结果。AI HFpEF模型(截距:-0.56,-0.82 至 -0.32;斜率:0.44,0.35至0.56)和H2FPEF评分(截距:-1.00,1.75至-0.40;斜率:0.81,0.58–1.15)的截距和斜率均表明风险估计过高。


03

模型分类

表2重点列出了所有模型的分类性能。


04

重新分类和添加信息

图3展示了患者从H2FPEF评分(图A)和HFA-PEFF评分(图B)重新分类到AI HFpEF模型的情况,以及AI HFpEF模型与各评分的净分类统计数据对比。在根据H2FPEF评分分类为中等的患者(n=306)中,AI HFpEF模型也将45例归类为中等,163例归类为HFpEF可能性高,98例归类为HFpEF可能性低。在根据HFA-PEFF评分分类为中等的患者(n=269)中,AI HFpEF模型也将48例归类为中等,139例归类为HFpEF可能性高,82例归类为HFpEF可能性低。


05

临床实用性

使用决策曲线分析评估了将AI HFpEF模型整合到临床实践中的临床效用。基于整合H2FPEF评分和AI HFpEF模型的诊断信息做出的临床管理决策优于单独使用H2FPEF评分。具体而言,与仅使用H2FPEF评分相比,使用所有可用信息进行干预的决策可使正确管理的HFpEF患者增加33%,处方数量绝对减少9%,并且不会遗漏任何HFpEF患者;当按照中级AI HFpEF模型分类使用临床评分而不是其他方法时,这种益处最大(图4)。


06

患者结果

在中位数(IQR)25(15-35)个月的随访中,有45例HF住院(10.3%)和61例死亡(14.2%)。根据AI HFpEF模型,诊断阳性结果与主要复合终点风险增加2倍相关(HR 2.56,1.46-4.51,p = 0.001 vs. 诊断阴性结果),死亡风险增加(HR 2.54,1.27-5.05,p = 0.008),HF住院风险增加3倍(HR 3.15,1.33-7.47,p = 0.009)。


总结

AI模型(EchoGo Heart Failure v2)在外部验证中表现出与H2FPEF评分相当的区分度,但分类能力更优(中间分类率仅15.1% vs. 61.7%),尤其在复杂临床队列(如合并结构性心脏病或HFpEF模拟疾病)中更具实用性。AI模型连续概率输出提供增量诊断信息,与临床评分整合可提升正确决策率(如启用SGLT2抑制剂)。AI诊断阳性患者死亡和心衰住院风险显著升高,支持其预后价值。研究支持将AI模型纳入HFpEF诊断路径以减少漏诊,但需前瞻性研究验证其在真实临床场景中的影响。




上一篇:基于心电图的深度学习预测美国儿童和成人先天性心脏病的左心室收缩功能障碍:一项多中心建模研究

下一篇:04.14-04.20 临床预测模型研究顶刊快报



邮编:400000
联系电话:13651835632
电子邮件:zhoubaihao910@126.com
地址:重庆市沙坪坝区龙湖光年4号楼
Copyright © 2022 重庆嘉舟生物科技有限公司 All Rights Reserved 渝ICP备2022013225号