机器学习如何解决看病难？

2019-04-23 09:34

机器学习对临床医生的工作有何帮助

预后

机器学习模型可以学习患者的健康轨迹模式。它可以得到超出医生个体经验的信息，帮助医生以专家水平预测出未来可能发生的事件。例如，患者重返工作岗位的概率有多大？疾病发展的速度会有多快？相同类型的预测可以在众多患者中可靠地识别出将出现高危情况或可能频繁需要医疗护理的患者，这些信息可以作为附加信息帮助医生。

大型综合卫生系统已经在用简单的机器学习模型了，它可以自动识别可能需要转移到重症监护室的住院患者，回溯性研究表明，可以用 EHR 和医学图像中的原始数据建立更复杂也更准确的预后模型。

构建机器学习系统需要用患者的纵向整合数据进行训练。只有当训练模型的数据集中包含结果时，模型才能学习到患者的情况。但数据现在都是独立存储在 EHR 系统、医学影像存档和交互系统、付款人、PBM（Pharmacy Benefits Managers，药品福利管理）甚至患者手机上的应用中的。自然的解决方案是将数据系统交到患者自己手中，这也是我们长期以来一直倡导的解决方案，现在这一想法也已经通过快速采用患者控制的应用程序编程接口得以实现。

像 FHIR（Fast Healthcare Interoperability Resources，快速医疗互操作性资源）这样将数据转化为统一格式可以更有效地聚合数据。患者可以决定哪些人可以用他们的数据来构建或运行模型。尽管有人担心技术的互操作性无法解决 EHR 数据中普遍存在的语义标准化问题，但 HTML（Hypertext Markup Language，超文本标记语言）可以索引 Web 数据，还可以用在搜索引擎上。

诊断

每一位患者都是独一无二的，但最好的医生可以在正常范围内确定患者特有的微弱信号或异常值。可以用机器学习检测出的统计模式帮助医生识别诊断不到的病症吗？

医学研究所的结论是，几乎每一位患者在他（她）的一生中都会遇到一次误诊，而正确的诊断是采用合适治疗方法的基础。这个问题不止在一些罕见的病症中会出现。在发展中国家，即便有充足的治疗手段、检查时间和培训充分的医护人员，也无法检查出急性胸痛、肺结核、痢疾以及分娩期间的并发症。

常规医疗护理期间收集到的数据表明，可以在临床诊断中用机器学习来判断可能的诊断，这样可以提高对以后可能出现的情况的认识。但这样的方法有局限性。生疏的临床医生可能无法正确提取模型必需的信息，因而无法让模型变得有意义。模型得到的结果可能建立在临时或错误的诊断之上，可能建立在不能证明是病症的不良反应条件之上（从而造成过度诊断），可能受计费的影响，或者可能根本没有记录。但模型会根据这些实时收集的数据给医生提出建议，这些建议在误诊率很高和临床医生不确定的情况中是很有用的。在临床上正确的诊断和 EHR 中或报销索赔中的记录的不一致意味着临床医生应该从一开始就参与到产生数据的过程中来，这些数据会作为常规护理的一部分，而且之后还会用于自动诊断过程。

训练成功的模型可以回溯识别各种图像类型的异常（表 1）。但将机器学习模型作为临床医生常规工作一部分的回溯试验的数量非常有限。

治疗

在数万名医生要治疗数千万患者的大型医疗系统中，患者在什么时候为什么就诊以及情况相似的患者应该如何治疗都是有差异的。模型是否可以对这些差异进行分类，从而帮助医生确定首选治疗途径？

一个比较简单的应用是比较定点照护（point of care）的处方和模型得到的处方，可以将差异标记出来后再次核查（例如，其他临床医生倾向于使用可以反映新方法的替代疗法）。基于历史数据训练的模型只能学习医生的处方习惯，但这并不一定是理想做法。为了了解疗效最好的药物和治疗方法，需要精心收集数据并评估因果效应，而机器学习模型则不一定能（有时候也不能用给定的数据集）识别这些效应。

根据观察数据比较疗效研究和实用性实验的传统方法也提供了重要看法。但近期使用机器学习方法的试验表明，和专家一起生成人工筛查过的数据集、更新模型以纳入新发表的数据、根据不同领域的处方进行调整以及从 EHR 中自动提取相关变量都是很大的挑战。

还可以用机器学习自动选择患者，根据临床记录，这些患者可能适合进行随机对照试验；或者可以用机器学习自动识别可能用早期研究或新疗法治愈的高风险患者或亚群。这些工具促使医疗健康系统研究每一种临床情况，可以在降低成本和管理费用的同时进行更严格的研究。

临床工作流程

EHR 的引入提高了数据的可用性。但这些系统也因费用过高、管理文档的复选框过多、用户界面不够友好、输入数据花费的时间过长以及产生新的医疗错误等让临床医生们灰头土脸。

也可以将机器学习技术用在其他消费产品中以提高临床医生们的效率。驱动搜索引擎的机器学习可以在无需临床医生多次点击的情况下找出患者数据的相关信息。用机器学习技术（如预测类型、语音听写和自动摘要等）可以大大改进表格和文本数据的输入。根据患者表格中的信息自动授权支付的模型可以取代提前授权。使用这些工具不仅仅只是为了方便医生。无障碍地查看和输入临床上的有效数据对捕获和记录医疗健康数据来说至关重要，这反过来也可以在机器学习的辅助下为每一位患者提供最好的医疗护理帮助。最重要的是，这种做法提高了效率、简化了记录，而且改进了自动化临床工作流程，这样临床医生就可以把更多的时间花在患者身上。

在 EHR 系统之外，机器学习技术也可以用于外科手术的实时视频分析，可以帮助外科医生避免在关键结构解剖时出现问题或者患者身体有意料之外的改变，甚至可以处理更普通的任务——比如准确计算手术海绵的数量。检查清单（checklist）可以避免手术错误，还可以自动监控手术过程，提高手术的安全性。

在临床医生的个人生活中，他们可能在自己的智能手机上用到了所有这些技术的变体。尽管有将这些技术应用于医学背景的概念验证的研究，但主要的障碍不是模型的开发，而是技术的基础设施——EHR 之上的法律、隐私和政策框架、卫生系统以及技术供应商。

扩大临床专业知识的可用性

医生不可能照料到所有需要治疗的患者。机器学习是否可以在不需要医生亲自参与的情况下，扩大医生诊治范围、提供专家级医疗评估呢？例如，刚刚发皮疹的患者可能只要用手机发送一张照片就可以获得诊断，从而避免挂不必要的急诊。本身要去急诊室就诊的患者可能在自动诊断系统就能获得诊断，并在适当的时候以另一种形式进行护理。当患者确实需要专业帮助时，模型也可以识别出专业最相关且处于空闲状态的医生。同样，为了提高舒适度并降低成本，如果机器可以远程监控病人的传感器数据，本身需要住院治疗的病人就可以在家里接受护理了。

世界上有一些地区，直接学习医学专业知识的渠道有限，而且非常复杂，因而将机器学习的真知灼见直接传递给病人变得越来越重要。即便是在那些专家医生充足的区域，这些医生担心他们的能力和努力无法及时且准确地解释那些浪潮一般的数据，这些数据一般是从患者穿戴的传感器或活动追踪设备中得到的，并且由患者自己驱动。事实上，用数百万患者的数据训练得到的机器学习模型可以帮助专业医护人士做出更好的决策。例如，护士可以承担通常由医生完成的医疗工作，初级护理医生则可以承担通常由医疗专家完成的工作，而医疗专家则可以将更多的时间投入到非常需要他们专业知识的病人身上。

不涉及机器学习的移动应用或网络服务已被证明可以改善药物的依赖性，还可以控制各种慢性病。但正式的回顾性和前瞻性评估方法阻碍了患者直接应用机器学习。

主要挑战

高质量数据的可用性

构建机器学习模型的核心挑战在于组装具有代表性的多样化数据集。理想做法是在使用过程中利用最接近期望数据准确格式和质量的数据来训练模型。例如，对于打算用在即时护理中的模型而言，最好使用 EHR 在特定情况下所用的同一数据，即便已知这些数据不可靠或这些数据受到了不必要变化的影响。当数据集足够大时，现代模型可以成功被训练，以将嘈杂输入映射到嘈杂输出。使用人工筛查数据（比如那些在临床试验中从人工病例审查得到的数据）得到的更小数据集就不太理想，除非希望医生根据原始实验规范手动提取变量。这种做法对某些变量来说或许可行，但对于做出最准确预测所必需的、EHR 中数十万的数据而言就太不可行了。

俗话说「垃圾进，垃圾出」（garbage in， garbage out），那么我们如何协调噪声数据集来训练模型呢？要学习大多数复杂的统计模式最好还是有大数据集（哪怕是噪声数据），以便对模型进行微调和评估，但具有人工筛查标签的更小样例集还是有必要的。当原始数据可能标记错误时，这种样例集可以就模型对预期标签的预测做出正确的评估。对成像模型来说，这通常需要生成由每张图片的多个评分器判定的「ground truth」标签（即由一位绝对可靠的专家指定给一个样例的诊断或发现），但对非成像任务来说，如果没能获得必要的诊断测试，那可能也无法获得「ground truth」标签。

一般情况下，训练数据越多机器学习模型表现得越好。因此，对于机器学习的使用而言，一个关键的问题是在利用大且多样化数据集以提高机器学习模型准确率的同时，需要平衡隐私问题和监管要求。

从过去的失败经验中学习

人类的所有活动都会被意料之外的偏差破坏。机器学习系统的构建者和使用者需要仔细考虑偏差如何影响用于训练模型的数据，并采取措施解决和监控这些偏差。

机器学习的优势（也是劣势之一）在于模型可以识别到人类无法找到的历史数据模式。医疗实践的历史数据表明，人们能得到的系统性医疗护理是存在差异的，一般为弱势群体提供的医疗护理较其他群体更差一些。在美国，历史数据反映了一种支付系统，该系统会奖励使用不必要护理和服务的人，这样可能会错过那些本该却并未得到护理的病人（比如没有保险的患者）。

监管、监督和安全使用的专业知识

卫生系统已经建立了可以确保将药物安全传递到患者手上的复杂机制。机器学习的广泛适用性也需要同样复杂的监管结构、法律框架以及当地实践以确保系统的安全开发、使用和监管。此外，技术公司必须要提供可扩展的计算平台来处理大量数据和模型使用的问题，但到现在他们也不清楚自己的定位。

重要的是，使用机器学习系统的医生和病人都需要理解其局限性，包括模型并不能泛化到特定场景。做决策或分析图像时过度依赖机器学习模型可能会导致自动化偏差，而医生可能已经降低其对这些偏差的警惕。如果模型的可解释性不够强，医生可能意识不到模型给出了错误的建议，这时尤其会出现问题。在模型预测中表现出置信区间可能有所帮助，但置信区间本身或许被错误解释。因此，需要对使用中的模型进行前瞻性的、真实的临床评估，而不只是根据历史数据集对模型性能做回顾性评估。

需要特别考虑直接针对患者的机器学习应用。患者可能无法验证模型构建者所说的话是否得到高质量临床证据的证实，也无法验证模型建议的行为是否合理。

研究结果的出版与传播

构建模型的跨学科团队可能会在临床医生不熟悉的场所汇报结果。稿件通常会在 arXiv 和 bioRxiv 这样的预印本服务网站上发布，许多模型的源代码则会在 GitHub 库这样的地方保存。此外，许多同行评审的计算机科学稿件也并不会发布在传统期刊上，而会发表在 NeurIPS（神经信息处理系统大会）和 ICML（国际机器学习大会）这样的会议上。

结论

大量卫生保健数据的加速创建将从根本上改变医疗保健的性质。我们坚信，医患关系将成为为患者提供医疗服务的基石，而这种关系会因机器学习的辅助而变得丰富。我们期望在未来几年会出现一些早期模型和同行评审的刊物，它们的出现以及监管框架和基于价值医疗的经济激励的发展，都会成为对医疗领域应用机器学习保持乐观态度的理由。我们期望在不远的未来，数百万临床医生在护理数十亿患者时，可以在机器学习模型的帮助下根据所有医学相关数据做出决策，从而为所有患者提供最好的护理方案。（作者：机器之心）

<上一页 1 2