为什么没有被FDA批准的抑郁症AI产品？

2021-11-24 18:10

“生而为人,我很抱歉。”

当温柔美丽、落落大方的X坐在我对面,说出这四个字时,我才知道她也是一个多年抑郁症患者。每次见X,她都是精致装扮过的大龄熟女,迎面朝我走过来的时候我总是会眼前一亮;她走过的地方,回头率极高。跟她聊天,她的幽默风趣会让你觉得人间有她真好。直到有一天说起了这个疾病,我才知道她也是患者之一。“的确,并不是生活质量看起来很高的人就不会有抑郁症”,北医六院的医生回答了我的疑惑。“抑郁症有时候还会藏起来,并不容易发觉。”

据世界卫生组织(WHO)披露数据显示,全球有超过3．5亿人罹患抑郁症,近十年来患者增速约18%,截至2017年,中国有超过5400万人患有抑郁症。

全球抑郁症的发生率约为3．1%,每年大约有100万人因为抑郁症自杀。在我国抑郁症发病率约为3%-5%,中国每年大约有28万人自杀,其中40%患有抑郁症。更需要引起重视的是, 抑郁症在青少年患者中的患病率逐年上升。据《中国国民心理健康发展报告(2019-2020)》显示,2020年,中国青少年的抑郁检出率为24．6%,其中轻度抑郁为17．2%,重度抑郁为7．4%。分年龄段来看,青少年抑郁检出率随年级的升高而升高,有部分孩子长期处于情绪低谷。

好消息是,日前,教育部就政协第十三届全国委员会第四次会议提出的《关于进一步落实青少年抑郁症防治措施的提案》进行了答复,其中明确将抑郁症筛查纳入学生健康体检内容,建立学生心理健康档案,评估学生心理健康状况,对测评结果异常的学生给予重点关注。

想象中AI的力量

发病人数高企,就医率却仅10%。在拒绝就医的原因中,排在首位的是“病耻感”。因为对抑郁症的认知和普及有许多待提高之处,有很多人迟迟不肯就医,还有很多人到了医院也会避重就轻的挂一个“睡眠科”来试图解决问题。与日渐攀升的抑郁症患者人数相比较,对于抑郁症的认知普及是一个更难的话题。如果人工智能就能识别抑郁症呢?会不会早防早治会出现更好的局面?这也是人工智能专家和医学专家涉足这个领域的初衷,其优势不言而喻:AI解决方案能协助诊断。抑郁症患者通常发病时间不定,从几周到几年时间不等。如果利用AI持续的数字监控,显然医生可以访问颗粒度更细的数据。而且,当临床医生与患者进行实时对话时,人工智能会实时识别临床抑郁和焦虑的声音线索,然后医生或者咨询师来判定是否需要启动后续治疗。AI驱动的跟踪和有针对性的干预有望可以挽救生命。还有更遥远的想象是,一旦人工智能驱动的生物传感器,用来预测某人何时陷入抑郁症,那么数据收集、机器学习结合的力量就更强大了。这一点在心衰的预测上已经有所表现。

语音、表情和文本

用人工智能来筛查、辅助诊断甚至治疗抑郁症,目前的技术主要集中在三个领域:语音、表情和文本。其中语音识别是目前创新产品和公司比较集中的赛道。

比如:全球各大媒体在争相报道的Sonde Health,该公司将几秒钟的音频分解成具有数千种独特特征的信号,进行音频信号处理,来识别一个人是否患了抑郁症,并号称其模型使用了六个声音生物标志物。在美国湾区的Kintsugi也称,他们的AI模型只需要20秒的音频就能以超过临床80%的临床准确率检测心理健康问题。将目前精神科医生的检测率47．3%相比,人工智能诊断的有效性提高了近一倍。英国公司Realeyes创立于2007年,2015年曾获欧盟拨款支持;利用图像处理、人工智能、计算机视觉等技术,通过摄像头追踪人的面部表情数据,进行情绪识别和行为分析。该公司目前主要的技术应用在营销领域,Realeyes给自己寻找到的新应用场景在于医疗和教育,例如帮助监测抑郁症、以及监测并提高学生专注度,但并未透露具体的计划和产品。在荷兰,有一个名叫“树洞救援队”的组织,利用机器人程序在网络上侦探社交平台的文本,来寻找公开的社交媒体上那些心理需要帮助的人。这是一个由数百名来自中国各个地方志愿者组成的庞大网络,它的创立者是荷兰阿姆斯特丹自由大学(Vrije Universiteit Amsterdam)人工智能学者黄智生。

“树洞救援队”的统计显示,有自杀想法的人年龄主要集中在16至26岁,深夜10点到凌晨2点是树洞留言的高峰期,在男女比例上大约是1:3。“树洞救援队”通过黄教授所研发的机器人程序与其他志愿者进行配合,累计阻止了近700人的自杀行为。但这对于庞大的患病人群仍然是杯水车薪。

难题

听起来这是一个特别有前景的赛道,然而现实的情况却是:至今没有被FDA批准通过的抑郁症AI筛查或治疗产品。

为什么?理论和研究两个方面都难题重重。理论上,抑郁症的诊断本身偏主观,并且经常和其他疾病交织在一起,甚至合并其他疾病;而且症状上也与其他疾病有相似之处;还有,个体差异如此巨大,很难寻找到具有辨别力的标记物或者线索组合。实际上,如同人们希望借助AI推动抑郁症的筛查和治疗的原因一样,这也是目前横亘在行业进步前的一块巨石:并非所有患者都表现出相同的症状,这本身就让抑郁症成为一种难以诊断的疾病。因为抑郁症是一种精神状态:它是根据人们的心理症状和行为来诊断,而不是通过脑部扫描或血液或DNA中的标记来诊断。虽然科学家们希望人工智能可以从用于诊断和治疗抑郁症的主观标准中做出一些排序,但迄今为止,合理的经得起推敲的生物标志物的找寻本身就成了一道难题。2021年5月,经过三年的研究,Google的母公司Alphabet的机器学习计划Project Amber宣告失败。该计划本意是试图使用人工智能和机器学习发现抑郁和焦虑的生物标志物,“让脑电波像血糖一样容易测量和解释,并将它们用作抑郁症的客观测量值。”期待让脑电图从实验室走向临床和咨询室。

理想很丰满,现实很骨感。

在实际研究中有更多的问题摆在面前。目前的计算机自动识别都需要基于数据库,而这些数据库不能代表所有抑郁症病人,或者说代表性很差,这意味着得到的结果只能是某一个群体甚至仅仅在某一种场景下的分类结果。“很多论文中所得到的结果是基于现成的数据库,而大部分现成数据库只包含了有抑郁和无抑郁两种情况,即随机准确率为50%。然而,实际场景中有太多可能的疾病种类,分类时准确率会大幅下降。”温州医科大学精神医学学院颜文靖副教授告诉「赛博医客」。目前的数据库往往只有类别很有限的几种疾病。例如在抑郁症病人和健康人群做区别,成绩会比较高,至少高于50%,但是如果放在10种疾病中筛选是否存在抑郁症,那么准确率会大幅度下降。再加上许多科学领域的数据分析工作的流程已经变得极其复杂,其中包含大量处理和分析步骤,每个步骤都有许多可能的选择,通常没有唯一正确或“黄金标准”工作流程,而不同的选项将反映不同的权衡和统计理念。有模拟研究表明,虽然目前尚不清楚这种差异存在的程度以及它如何影响实践中报告的科学结论,但这些分析选择的差异会对结果产生重大影响。国际上还有一批科学家指出,许多研究的患者样本太少,对于数据呈现的效果信心会不够;并且重复研究很少——这些瑕疵也可能高估了算法的预测能力。

另外,患者报告数据的过程中考量因素是否尽可能的全面又客观也是难点。即使假定患者可靠地报告了症状及其严重程度,也仍然需要仔细考虑社会人口因素以避免偏见。例如,耶鲁大学的研究人员发现种族、教育水平和就业状况是抗抑郁治疗后症状缓解的首要因素。再加上前文提到的个人对抑郁症的体验不同也不是什么秘密。对于目前所有这些计算研究中包含的患者数据是否具有足够的代表性,结果是否可以广泛适用于所有抑郁症患者,就更不清楚了。

Amber项目虽然宣告失败了,但是该团队总结出了三点经验供接棒者参考:

一,心理健康测量仍然是一个未解决的问题。开发的任何新测量工具都需要为精神健康问题和医疗保健专业人士创造价值。

二,虽然针对心理健康的客观生物标志物测试无疑是有用的(如果存在的话),但它不一定要取代询问人们经历和感受的主观评估工具。结合主观和客观指标可能更强大。

三,虽然医生和患者都对于使用EEG(Electroencephalogram,脑电波)作为辅助诊断手段意见不一致,但双方都认为——使用 EEG 进行持续监测,以捕捉心理健康随时间的变化或对治疗的反应——可能有价值。在围绕可重复性和可行性的这些更大的问题得到解决之前,不要以为人工智能能相对客观的评判抑郁症。现实的情况是,目前这个领域的人工智能可能和人一样主观。