发布时间: 2025-04-17 15:50:20
THE LANCET 2025/04/07-2025/04/13
1. 通过算法数字风险分层定义整个成年人口中临终队列的电子意外问题的准确性:基于风险和数据驱动的临终患者主动评估 (PRADA) 04.09 EBioMedicine
Nature 2025/04/07-2025/04/13
1. 使用DataSAIL进行数据分割以避免信息泄露 04.08 Nature Communications
2. 生物医学机器学习的基准危机 04.08 Nature medicine
3. 开发并验证加州两大医疗系统中结核病识别预测算法 04.10 Nature Communications
4. 使用电子健康记录预测先兆子痫从诊断到分娩的间隔 04.12 Nature Communications
THE LANCET
1.通过算法数字风险分层定义整个成年人口中临终队列的电子意外问题的准确性:基于风险和数据驱动的临终患者主动评估(PRADA)
The accuracy of an electronic-Surprise-Question defining end-of-life cohorts in a whole adult population by algorithmic digital risk stratification: the Proactive Risk-Based and Data-Driven Assessment of Patients at the End of Life (PRADA)
(1)背景:该研究针对当前临终关怀领域存在的核心挑战,即缺乏系统化、可扩展的方法来准确识别大规模人群中的临终患者。研究者开发了PRADA系统,通过整合医院、社区和初级护理的多源数据,结合算法驱动的风险分层(e-SQ),旨在实现全人群规模的临终预测,支持早期干预和个体化护理计划。
(2)解释:PRADA研究通过前瞻性队列设计,在英国Wolverhampton地区纳入236,321名成年人(含6,153例死亡),验证了其电子化风险分层模型的有效性。模型采用两步算法:第一步基于护理流程标记(如预先护理计划、姑息治疗记录),第二步利用二元逻辑回归生成死亡率概率并设定分界值(≥1%风险)。结果显示,e-SQ-No组(预测生存≤1年)占人群5.4%,占所有死亡人数的50%,敏感性和特异性分别为50%和95.1%,ROC曲线下面积0.73,表明其在大规模低事件率人群中具有临床意义。
Nature
1.使用DataSAIL进行数据分割以避免信息泄露
Data splitting to avoid information leakage with DataSAIL
(1)介绍:研究者开发了DataSAIL这一通用Python工具,将泄漏最小化的数据分割问题转为组合优化任务,通过聚类和整数线性规划(ILP)的启发式方法,生成训练、验证和测试集,确保数据点间相似性最小化,同时保持类别分布平衡,从而更真实地评估模型在未知数据上的性能。
(2)结果:文章通过理论证明和实验验证表明,DataSAIL能显著降低数据分割中的信息泄漏,提升模型评估的可靠性。其核心贡献包括:1)将数据分割问题建模为NP难的(k, R, C)-DataSAIL优化问题,提出基于聚类和ILP的高效解法;2)支持一维(如分子属性预测)和二维(如药物-靶点交互)数据分割,并兼容分层需求;3)在多个生物医学数据集(如QM8、Tox21)上的实验显示,DataSAIL分割相比随机分割和其他工具(如DeepChem、LoHi)显著降低泄漏指标L(π),并导致模型测试性能更接近真实OOD场景。
2.生物医学机器学习的基准危机
A benchmarking crisis in biomedical machine learning
(1)介绍:本文旨在揭示生物医学机器学习领域因缺乏标准化基准、统一性能评估指标和透明验证协议而面临的危机,并强调这一危机对科学进步和临床转化的阻碍。
(2)结果:作者提出,解决这一危机需要多方协作的标准化举措,包括:1)由行业联盟主导整合和规范生物医学基准数据集,统一数据预处理流程,减少评估偏差;2)平衡专有数据与公共数据的利用,通过定期对比不同专有训练集和疾病场景,激励数据多样性,提升模型泛化性;3)构建与临床或生物学实际意义挂钩的评估框架,超越传统准确性指标,纳入安全性、伦理合规性等维度,并早期引入监管机构参与基准设计以加速临床转化。
3.开发并验证加州两大医疗系统中结核病识别预测算法
Development and validation of prediction algorithm to identify tuberculosis in two large California health systems
(1)介绍:该研究旨在解决加州潜伏性结核感染(LTBI)筛查的不足问题,作者开发了一种基于EHR数据的结核病风险预测模型,以提高筛查效率。研究通过比较新模型与当前实际筛查实践(如随机筛查或基于不完整风险因素的筛查)以及理想化的基于EHR的加州公共卫生部(CDPH)指南筛查,验证新模型是否能更精准地识别高风险人群,从而减少需筛查人数并提高检出率。
(2)结果:研究开发的结核病风险预测模型在内部(KPSC)和外部(KPNC)验证中表现出色,C统计值分别为0.816和0.817,显示较高的区分能力。与现有筛查相比,模型在相同筛查比例下显著提升敏感性:例如,筛查5.2%的高风险人群时,敏感性从实际筛查的4.9%提升至35%,需筛查人数(NNS)从3222人/病例降至361人/病例。模拟结果显示,即使考虑现有筛查可能预防的病例,模型仍保持优势。此外,模型在覆盖30%人群时(接近理想化CDPH筛查比例)敏感性达76-81%,优于理想化筛查的73-79%。
4.使用电子健康记录预测先兆子痫从诊断到分娩的间隔
Predicting interval from diagnosis to delivery in preeclampsia using electronic health records
(1)介绍:该研究旨在开发并验证一种基于深度学习的生存分析模型(PEDeliveryTime),利用电子健康记录(EHR)数据预测先兆子痫(PE)患者从诊断到分娩的时间间隔,以辅助临床决策。
(2)结果:研究成功开发了PEDeliveryTime模型,在密歇根大学(内部)和佛罗里达大学(外部)数据集上分别达到C-index 0.79和0.74,EOPE子集模型表现稍低但仍有临床价值(C-index 0.76和0.67)。模型筛选出12个关键特征,包括诊断孕周(最重要预测因子)、严重先兆子痫(sPE)、实验室指标(AST、肌酐)、生命体征变异(舒张压标准差)及病史(既往PE史)。这些特征与缩短或延长分娩时间显著相关,例如高AST值和血压波动提示更早分娩。研究进一步开发了用户友好的网络应用程序,支持临床实时预测。外部验证证实模型泛化能力,且性能优于现有风险评分工具(如fullPIERS的C-index仅0.50)。
上一篇:HMOX1:呼吸道疾病中的“矛盾卫士”——上调表达揭示新型保护机制
下一篇:基于心电图的深度学习预测美国儿童和成人先天性心脏病的左心室收缩功能障碍:一项多中心建模研究