微软AI心脏病风险预测指标面世实现数据可视化指日可待

2018-08-21 10:46

有许多风险因素决定了人们患心脏病的风险，例如生活方式、家族史、职业、现有疾病等等。了解人们患心脏病的风险可以帮助他们或他们的医生优先考虑干预措施。近日，微软推出了由人工智能支持的心脏病风险评分API，供大型印度医院网络Apollo使用。

“世界范围内基于人工智能的模型是在几十年前形成的，并以西方人口为基础。我们的新API评分基于Apollo Hospitals共享的40万印度人的数据，可以轻松识别每位患者的风险水平，“微软印度总经理Anil Bhansali表示。“作为AI领域的技术合作伙伴或专家，我们与医疗保健提供商和医生合作，整合数据以帮助构建AI模型，”Bhansali补充说。

这个AI工具考虑了21种风险因素，包括饮食、吸烟和吸烟偏好等生活方式属性以及通过呼吸率、高血压、收缩压和舒张压反映的心理压力和焦虑，并将对治疗计划提供丰富的见解和早期诊断。

“该评分将风险分为高、中、低，并提供了对可修改的最大风险因素的见解，从而帮助医生以更全面的方式咨询患者，同时为患者提供改善生活方式和及时干预的见解。”Bhansali阐述道。印度每年有近300万心脏病发病人数，3000万印度人患有冠心病。

“AI和ML与我们医生的全球专业知识的合并将有助于预防心脏病、拯救生命并确保患有心脏病的人能够做出明智的健康选择，”Apollo医院常务董事Sangita Reddy表示。

“印度民众的心脏风险评分是精确医疗保健如何加速预防心血管疾病和减轻疾病负担的真实例子，”Bhansali指出。“虽然我们目前正在与Apollo合作，但我们也正在确定合作伙伴，我们可以在其中实际尝试此API评分，”他补充说。

事实上，微软并不是第一个利用AI技术来预测心脏病的机构。在几个月前，《科学》杂志报道了英国诺丁汉大学流行病学家 Stephen Weng 博士团队发表在《PLOS ONE》上的重要研究成果，Weng 博士团队将机器学习算法应用于电子病历的常规数据分析，发现与当前的心脏病预测方法相比，深度学习算法不仅可以更准确地预测心脏病发病风险，还可以降低假阳性患者数量。

「这项研究的重要性再怎么强调都不过分」，没有参与这项研究的斯坦福大学血管外科医生 Elsie Ross 博士在接受《科学》杂志采访时表示，「我真的希望医生敞开胸怀拥抱人工智能，利用这个工具更好地帮助患者。」

我相信大部分心血管医生对人工智能的期待与 Ross 博士一样。因为据世界卫生组织统计，在 2012 年，全球非传染病导致的死亡人数为 3800 万，其中心血管疾病（心脏病和中风等）为 1750 万人，占所有非传染疾病导致死亡病例的 46．2％；而让人感到畏惧的癌症导致的死亡为 820 万，占所有非传染疾病导致死亡病例的 21．7％。心血管疾病的预防与治疗确实刻不容缓。

实际上科学家也一直在努力寻找与心脑血管疾病相关的风险因子，以达到预防疾病的目的。例如美国心脏病学院与美国心脏病协会（American College of Cardiology／American Heart Association；ACC／AHA）等机构通过多年的研究，将高血压、胆固醇、年龄、吸烟和糖尿病等一系列因素列为与心血管疾病风险高相关的因素，并推出了 ACC／AHA 预测模型。除此之外，还有其他组织机构推出的 QRISK2、Framingham 和 Reynolds 等预测模型。

ACC/AHA 的预测主要风险因子组合【1】

然而，在 Weng 博士看来，这些方法都不给力。因为所有标准的心血管病风险评估模型都有一个隐含的假设，即每个风险因子与心血管疾病之间的关系都是线性的，这些模型可能过度简化了它们之间的关系。

相对于复杂的生命活动，这显然太简单了，无法揭示患者服用的药物，或其他疾病和生活方式因素对疾病的影响。甚至还有一些因素是反直觉的，很多人认为脂肪对身体有害，会增加健康人患心血管疾病的风险。但在一些情况下，它实际上是保护心脏的。「这些例外在人体内实实在在地发生，」Weng 博士说。「计算科学给了我们探索那些复杂关系的机会。」

为了探索利用机器学习预测心血管病发病风险的方法，Weng 博士团队从 Clinical Practice Research Datalink （CPRD）数据库筛选了 378256 名符合标准居民的 10 年（2005 年 1 月 1 日起）电子病历，这些居民在 2005 年都是各方面指标正常的健康人。

然后随机将这个庞大的数据库分成两份，其中 295267（78％）个居民的电子病历，用来训练机器学习算法，剩下的 82989 个居民的 10 年电子病历用来验证算法的准确性。据 Weng 博士了解，这是全世界范围内，首次在如此大规模的群体中，使用机器学习预测人类患心血管疾病的风险。

为了找到更合适的机器学习算法，Weng 博士和其同事采用了 4 种机器学习算法，它们分别是：随机森林（random forest）、逻辑回归（logistic regression）、梯度提升（gradient boosting）和神经网络（neural networks）。将 ACC／AHA 模型作为对照。

第一步工作是让 4 种机器学习算法在没有人类指示的情况下，通过分析 295267 的电子病历数据，各自「创造」一个预测模型。当研究人员将标准化的数据「喂」给这四种算法之后，它们很快找到了各自认为的与心血管病发生相关性较高的风险因子。

在这一步，机器学习算法就显现出了它的优势。与 ACC／AHA 指南相比，年龄、性别和吸烟三项风险因素，也被四种机器学习算法列为首要风险因素。然而，现行的许多心血管疾病算法认为糖尿病是风险因子之一，四种机器学习模型要么不考虑这项因素，要么只认为糖化血红蛋白是风险因素。

四种深度学习算法自己「摸索」出来的重要风险因子【1】

更有意思的是，这四种机器学习模型认为房颤、种族差异、慢性肾病、慢性阻塞性肺疾病和严重精神病等疾病，以及是否服用皮质类固醇，以及甘油三酯水平等生物标志物等是重要风险因素。但是这些在现存的模型里都是不存在的。

这再一次表明，机器学习可以帮助研究人员发现一些潜在的风险因子，这些变量凭人力是很难发现的，但是机器学习可以从其他变量中推断出来。那机器学习的这几套模型到底靠谱吗？

第二步，Weng 博士将四种机器学习算法自主建立的模型与 ACC／AHA 模型进行比较，让它们分别预测剩下的 82989 个居民哪些 10 年后会患心血管疾病（实际总发病人数为 7404 人，当然研究人员没有把这个信息告诉深度学习模型），哪些不会发病。它们的预测结果如下。

四种深度学习「摸索」出的模型预测能力与 ACC/AHA 模型的比较【1】

不难看出，四种机器算法自主创建的模型要优于 ACC／AHA 模型。随机森林模型的敏感性比 ACC／AHA 高出 2．6％，逻辑回归模型的敏感性比 ACC／AHA 高出 4．4％，梯度提升机和神经网络模型的敏感性比 ACC／AHA 高出 4．8％。从本研究的结果看来，最好的神经网络算法比传统模型多正确预测了 355 个居民的发病风险。这意味着，在更大的人群里，将有数以万计的人会因此而得救。