医生与AI，谁更需要谁？陶大程博士浅谈AI与医疗

2019-09-17 09:02

AI毫无疑问是当下最火的概念之一，据《2018世界人工智能产业发展蓝皮书》显示，截至2018年上半年，在全球范围内共监测到AI企业4998家，其中，中国的AI公司达1040家。在这其中，针对医疗健康的AI应用又占据了最大的比例，达到22％之多。这也就不难理解8月30日在上海徐汇西岸举办的“2019全球人工智能健康峰会”为什么能够吸引全球人工智能领域的大咖们齐聚于此了。

作为“世界人工智能大会”的主题论坛之一，本次峰会由联合国国际电信联盟ITU作为指导单位，在上海市经济和信息化委员会，上海市卫生健康委员会、徐汇区人民政府、中国信通院和互联网医疗健康产业联盟的共同组织下，由中国信通院华东分院负责具体会议落地执行。

这其中，悉尼大学工程学院计算机系陶大程博士在包括计算机视觉、机器学习及相关应用方面的研究获得了不少让你侧目的学术成就。因此，他在2018年当选澳大利亚科学院院士。

在刚刚公布的2019年NeurIPS论文入选完整名单中，陶大程博士共有8篇论文入选，全球排名第六。尽管对AI有着长期的看好，陶大程博士对于当下AI的现实依然有着清醒的认识，并在峰会上做了《恰AI少年》的演讲。

作为这个行业的观察者，动脉网也有幸对陶大程博士进行了专访。全球顶尖AI专家是如何看待AI和医疗的呢？

医生和AI，谁更需要谁？

1956年8月，在位于美国汉诺斯镇的达特茅斯学院中，约翰·麦卡锡（John McCarthy）、马文·闵斯基（Marvin Minsky）、克劳德·香农（Claude Shannon）、艾伦·纽厄尔（Allen Newell）和赫伯特·西蒙（Herbert Simon）等科学家讨论了有关用机器来模仿人类学习以及其他方面的智能。这场为期两个月的会议虽然没有达成普遍的共识，但至少为他们所讨论的内容起了一个名字，即AI（Artificial Intelligence，人工智能）。

从那开始至今，AI的发展几经起落，如今已经进入了第三次人工智能的发展高潮——随着大数据和超级计算的支持，深度学习成为现实并逐渐成熟。

如今，AI在医疗领域已经可以起到各种各样的作用，主要体现在四个方面。首当其冲的便是目前应用最为广泛、成熟的机器视觉技术，比如，肺结节CT和眼底筛查。这些AI辅助诊断手段的加入，大大提升了医生的阅片速度和病征识别率，协助医生解决了患者相当多的问题。

自然语言处理技术也随着深度学习的发展开始逐渐成熟起来，由此衍生出对电子病例的分析。通过语音识别系统，帮助医生快速进行语音病例的录入，并让病人的病例变得更加结构化，为后续诊疗做出很多帮助。同样依托语音识别技术，同病人进行交互的辅助导诊机器人也可以对病人的疾病风险进行评估。医院可以减轻负担，门诊压力得以减缓，医生也可以尽早找到那些最需要进行诊断的病人，帮助病人减轻一些经济上的负担。

增强学习则被广泛应用到机器人中。如今的手术机器人不仅可以缝合伤口，也可以进行微创手术。在以往，医生随着年纪的增长或者伤病的原因会出现手抖，导致无法胜任手术。通过引入手术机器人，配合医生丰富的经验，能够让这部分医生扬长避短，延长职业寿命。

最后，则是利用AI进行数据挖掘。包括新药研发和未来的精准医疗，都需要用到数据挖掘的相关技术。

AI在近年的发展速度如此之快，以至于一些乐观主义者开始畅想，在未来的某个时候，AI将会取代医生的场景。不过，在陶大程博士看来，AI取代医生、或者说普通人在可预见的未来还很困难。

人类可以很容易地理解现实场景，认出场景中的人和各种物体。但是，同样的任务对于AI来说却充满挑战。为了帮助AI理解图像和视频，需要有非常高效的表征学习算法来有效地表达图像视频中的像素。目前的表征学习已经可以从原始数据中学到更精确的特征；同时，去除或者尽可能减弱数据中的冗余信息和噪声。

借助先进的表征学习，AI的确已经能够在识别、检测和分割等特定的视觉识别任务中、特定的数据库上达到甚至超越人类的表现。但在不少其他方面，比如简单加减法运算和图像中物体关系的理解等方面，AI还不如十来岁的孩童。“人工智能的目标是模拟人的智能。距离这样的期望，我们还有相当的距离，还要继续努力。”陶大程博士这么认为。

医疗数据通常具有多个模态，需要采集病人各种各样的指标，包括年龄、性别、尿样、血样、CT和X光片等等。这样的多模态数据可以帮助医生对病人进行完整的画像。如同盲人摸象一样，单一数据并不能对病症做出判断，只有将不同模态的数据组合起来才能看到事物的全貌。只要有足够多模态的数据，理论上可以重构上帝视角，因此对病人的画像建模就会变得更加准确。

目前AI在医疗应用中最常见的莫过于肺结节识别，这一模型实际上是由AI企业利用可以获取的数据训练而来。当将其部署到实际应用中时，医院发现企业训练的模型识别准确率并不高。这主要是因为AI企业的用于训练模型的数据和医院的数据，在分布上存在差异。

解决这一问题的关键在于获取大量的、同一分布的、精确标注的数据，来训练精确的AI模型。举个例子，即使我们训练一个自然图像的高精度物体检测模型，也需要使用百万级别的数据库、千万级别的标签。对于医学图像，数据的标注是需要由经过专业训练且经验丰富的医生才能实施，普通人并不能完成这个任务。可想而知，把AI应用于医疗是非常有挑战的。因此，医疗AI公司同时要考虑如何设计高效的数据标注工具，减轻医生标注数据的工作量。

那么，假设有足够的高质量数据来学习，AI在未来有没有可能从专精一两种疾病向更多病种去进化呢？陶大程博士认为这是非常富有挑战的。经过严格培养的医生专精于某种疾病，很难涉足其他不同的病种。

特定的AI算法也只是为单一任务服务，要想进行多任务学习并不容易——尽管研究人员一直在为此努力。如何有效地组织不同类型的、但是相关的任务是多任务学习的一个难题。

把没有关联的任务、甚至目标本身矛盾的任务放在一起来训练多任务模型甚至会降低学习到的模型的精度。

与此同时，医学影像还存在同病异影或者同影异病的问题。要解决这个问题仍然需要医生来进行深刻的分析。医生对不同类型疾病之间关联（一种疾病会导致另外一种疾病）的理解能力是目前的AI所难以具备的。

与此同时，并非所有疾病都能有足够的标注数据。常见疾病容易获得足够的标注数据，罕见病则完全没有足够的数据训练模型。如果再将罕见病本身在医学上就没有完全一致的标准这个因素考虑进去，问题就变得更加复杂了。

陶大程博士认为，AI是数据驱动的，通过医生的高质量数据标注才是最终实现医疗辅助诊断的基础。

1 2 下一页>