每年的世界卫生日都有一个主题,强调世界上关注的一个公共卫生重点领域。在新冠肺炎疫情仍在全球肆虐的当下,今年的主题显得格外应景和及时——“建设一个更公平、更健康的世界”。去年开始,由于疫情的爆发,世界各国的医疗资源都在某段时间里面临着或轻或重的紧张和短缺,在感谢医护人员的付出和辛勤劳动之余,我们也要看到,医疗条件不平等的世界性问题仍然突出,有些人因为自身所处的环境和生活条件,难以享有优质的卫生服务,无法健康地生活。因此,从政府和非政府机构,到有着社会责任的企业,再到普通人,都不应该忽视那些服务欠缺的社区,我们需要携起手来,给予他们需要的支持和帮助,确保每个人都享有利于健康的工作和生活条件。
关于在这一过程中企业能做什么,我们可以看到,除了通过捐赠和各种社区服务,更好地让每个人表达自己的爱心和关怀之外,它们也在发挥自己的“特长”,如Google等科技公司,就将一般被认为是“冷冰冰”的科技变得充满了“人情味”,让医疗创新能够惠及更多人。
为更多糖尿病患者带来更准确的视网膜病变筛查
2019年起,Google、Verily(同属Alphabet旗下的生命科学和医疗公司)与位于印度马杜赖市的Aravind眼科医院展开合作,开始将用于糖尿病视网膜病变筛查的机器学习模型应用于临床。之所以在印度开始这项全球临床研究计划,正是因为印度的眼科医生数量严重不足——根据2019年的数据,由于眼科医生的缺口高达10万以上,在印度共计约7200万名糖尿病患者中,只有600万人接受了糖尿病眼病筛查,这意味着有相当数量的糖尿病视网膜病变或糖尿病黄斑水肿的患者处在因为得不到及时的护理而失明的高风险中。
从开发到临床应用,这一模型花费了Google AI的研究人员们数年的时间,它的工作原理类似于专业的眼科医生——分析眼底的扫描片,观察是否有病变的征兆(例如微动脉瘤、出血、硬性渗出等)及其严重程度。利用由包含12.8万张眼底扫描图片的数据集训练而成的深度神经网络,这一模型可以自动完成这项需要经过专门培训才能进行的工作。
为了提高这一模型的性能、可解释性和在临床环境中的适用性,Google还在2018年底对它进行了大幅的改进:
首先,在训练模型时,Google将模型对糖尿病视网膜病变的分级由原来的两级(未患病/患病)细化至五级——N(未患病)、Mi(轻度)、Mo(中度)、S(严重)、P(增殖期),并加入视网膜专家小组的诊断结果,在诊断过程中,他们会对有分歧的任何病例进行讨论,直到达成一致意见,让用于训练模型的人为诊断更准确和精细。
然后,Google用经过精心挑选的,占比为0.22%的图像子集作为调整集,优化模型超参数(在模型运作之前设置值的参数),以大幅提高模型的性能。在优化之后的测试中,这一模型的Kappa系数(一种衡量分类精度的指标,越接近1越准确)达到了0.84,相比之下,视网膜专家和普通眼科医生的Kappa系数分别为0.82-0.91和0.80-0.84。
最后,模型在给出结果时,还会向医生显示算法对不同病变等级的预测概率,以及标出使其做出这一判断的最主要的区域。这一做法能提高医生对糖尿病视网膜病变分级的信心,让他们更准确地找到病灶。
由此,现在这一模型可以被整合进医院的筛查流程中,在“人机合作”之后,正如Aravind眼科医院的首席医疗官兼视网膜服务主管R. Kim博士所言,“医生有更多的时间与患者合作进行疾病的治疗和管理,筛查的患者数量也得以增加”。虽然离这一系统成为一项真正可以大规模应用的项目还需要一段时间(特别是需要大量的用户研究满足实际条件下医生和患者的不同需求),但它仍然向我们显示了机器学习技术有潜力在更多医疗条件不足的地区帮助筛查更多患者,预防疾病。
检测贫血
贫血的主要病因包括营养缺乏,以及糟糕的个人和环境卫生条件,是另一种在欠发达地区多发的疾病。一般而言,检测贫血需要进行血液测试,如果血红蛋白的数量低于正常值,则意味着患者患上了贫血。
眼底视盘区域对贫血的检测而言非常关键
Google在去年的一项研究表明,同样根据眼底(主要是视盘和周围的血管)图像,辅以一些常见的患者元数据(如年龄、性别等),机器学习模型可以对患者体内血红蛋白的数量进行量化。与仅使用元数据相比,这一方法将检测的准确率由74%提高到了88%。经其它科学家检测,这一模型可以在各种环境中发挥作用,它有望支持比血液检测更快、更简单的贫血筛查。
改善皮肤病的诊断
皮肤病也是一类患病人数和专业医生在数量上存在严重不平衡的疾病,以美国前些年的数据为例,有37%的就诊患者患有至少一种皮肤疾病,而其中半数以上不是由皮肤专科医生进行诊治的。然而,普通全科医生和专业医生在诊断准确率上差距巨大,前者的准确率仅为24%-70%,后者则达到了77-96%,可以说,皮肤科专业医生的短缺可能会导致错误转诊、护理延误以及诊断和治疗错误等问题。
对于缓解全球范围内皮肤病的诊疗负担而言,既然短期内大幅提高皮肤科医生的数量并不现实,那么帮助全科医生提高诊疗水平就显得尤为重要。在2019年,Google开发了一个深度学习系统,帮助诊断初级医疗中最常见的那些皮肤病。这一系统可以根据一张或多张皮肤异常的临床图像以及病历中多达45类的元数据(如年龄、性别、症状等),使用Inception-v4神经网络架构,结合经过特征转换的元数据进行处理,列出患者可能患上的数种皮肤病,从而帮助全科医生提升皮肤病治疗准确率,进而提升接诊人数。
为验证这一系统的准确率,Google用3756个病例组成的验证集A对其进行验证,并将结果与与获美国职业认证的皮肤科医生们给出的诊断结果(这一结果经过投票汇总)进行比较。从结果上看,它的top-1准确率(患者最可能患上的皮肤病)和top-3准确率(患者最可能患上的前三种皮肤病)分别为71%和93%,接近专业的皮肤科医生。
同时,因为不同患者的肤色不同,训练而成的模型可能存在种族偏见。为此,Google基于Fitzpatrick皮肤类型对数据集进行了分类,并分别评估了系统对至少占数据集5%的几种肤色(涵盖II型到IV型)进行诊断时的准确率。经验证,针对不同肤色,系统的准确率相似,证明它有着足够的包容性,适用于不同肤色的人群。