首页 > 观点 > 专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?

专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?

2021-02-02 观点 Eli

专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?-智医疗网

文 | 海若镜

文章来源| 财健道

1月15日,医疗大数据和AI技术企业医渡科技(2158.HK)登陆港股,上市当日收报65.20港元/股,较发行价上涨近148%,市值达到588亿港元。医渡云(即医渡科技)在资本市场的表现,也为医疗AI行业注入一剂强心针。

在医疗AI行业,高质量的数据、算法、算力是企业竞争力的核心,对于医渡云而言,凭借数据智能基础设施YiduCore,为医院、监管机构、药企等多方提供大数据解决方案支持,截至2020年3月31日止财年营收达5.58亿元,同比增速达447.1%。

医渡科技上市敲锣仪式现场,医渡云首席AI科学家闫峻博士接受了《财经》专访,从技术层面深度解析如何通过数据治理技术积累、算法创新等,逐步构筑起医渡云的护城河。闫峻博士毕业于北京大学数学学院信息科学系,曾任微软亚洲研究院资深研究经理、微软北京大学联合实验室副主任等职位,在医疗AI领域深耕多年。

  专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?-智医疗网

  ▲ 1月15日IPO仪式之后,闫峻接受《财经》专访

01

正向迭代的YiduCore,构筑数据治理护城河

《财经》:医渡云治理的医疗数据,其服务对象都有哪些?主要是治理何种类型的数据?

闫峻:主要服务于医疗机构、监管机构。医渡云帮助他们进行数据的加工、处理、计算,支持医疗机构的科研、临床辅助决策、院内管理等多种场景。

数据类型以文本为主,因为医院会用到HIS(HospitalInformation System, 医院信息系统)、LIS(Laboratory Information Management System,实验室信息管理系统)、手术麻醉临床信息系统等,主要还是处理这几类信息系统的文本数据。

《财经》:中国的医疗信息化已进行了十多年,HIS、LIS系统等已普及。目前医疗大数据治理的难点主要在哪些方面?

闫峻:信息化不等于数据化。虽然医疗的信息化已经做了很多年,但以前的信息化建设以“记录”为主,医生的临床判断、检测检验等都会记录下来,但它并不面向应用、科研,无法直接用这些记录构建面向AI的智能模型。

所以需要做“翻译”工作:通过医疗数据的集成、基于知识的数据质量治理、再到数据的结构化、数据的标准化,通过这样的链条把信息化时代记录的内容翻译成机器可计算的、数据化的东西。

各环节拆解来看,首先要进行数据集成。医院在进行信息化建设时,通常先上线一个子系统、过几年再上一个,每一类信息系统又有很多供应商。所以,一家医院内部可能存在过几十个系统,且彼此间没有打通。这意味着想看一位病人完整的病例数据都很困难。所以先要把数据集成起来,才能相对全景化地看到一份病历。

第二,需进行数据质量治理。医疗数据大多是人工记录,难免因各种原因产生错误和偏差,有一些还很严重,比如,“月经史8年,男”。在构建临床辅助决策系统时,如果数据本身是错误的,相当于误导了机器,反馈的结果就可能失真。如何通过AI建立数据质量治理的解决方案?

所以我们要建立规则体系,类似专家系统,通过知识推理发现存在错误的数据。这个系统的构建,背后需要非常强大的医学知识库。当加工处理的数据越多,越“见多识广”,就越能清晰地知道病例中可能出现的问题,然后输出为计算机可识别的模型,再让机器发现其中的问题。

下一步是数据结构化。把医生记录的内容,翻译成计算机可以读懂的结构化的数据表单。

最后还需要进行数据标准化。因为即便面对同一个表单,医生的表述习惯也不同,比如二型糖尿病,有的医生写阿拉伯数字“2”,有的用罗马数字“II”,有的写英文“type 2”。人看了知道是同一件事,但计算机识别的是符号,因此还需要用语义分析把它们关联在一起,清晰地说明描述的是一件事。

这项工作最大的难点不是构建一个强大的AI模型,而是需要大量的积累和投入。医渡云2014年成立,做第一家医院时花了一年的时间、很高的成本,公司在2017年前没有进行商业化,而是在解决行业的基础性难题。

《财经》:医疗大数据行业里,各家的路径会比较相似么?在这个过程中医渡云的核心技术能力体现在哪些方面?

闫峻:行业里每家企业都有自己的特点,定位和目标也不太一样,我们现在追求的目标是:要解决医疗的数据化到智能化进程中最基础的这一步。因为如果用现成的数据训练AI模型,再用这个模型去构建应用场景,那这件事情反而不需要太重的投入。

医渡云在做的相当于行业基础设施的建设,它需要非常长期的积累,无论是数据质控的知识库建设,还是结构化、标准化模型,实际执行时并不简单。

举一个医疗数据结构化的例子,通常意义上,自然语言处理有非常标准的算法,叫做NER算法,它主要的功能是从文本里面识别实体,比如定义症状叫一类实体,它就帮你识别症状;定义诊断为一类实体,它就可以识别诊断。

但医疗行业比较复杂。比如做肿瘤的临床研究,肿瘤分期非常重要,我们天然认为医生会写在病历文本里,机器只需识别即可。但实际上你用尽了一切手段,即使识别率、准确率、召回率都是100%,最后比较高的数据填充率也只有50%-60%,为什么?

原来大部分情况下,医生基于检查检验指标、病理结构可以轻易判断出肿瘤的分期,所以并不习惯在病历中直接标注,而对AI来说,没有这个数据,就意味着无论用什么算法,都不可能识别。

如何解决这类问题?其实有一整套非常严谨的医学逻辑,一方面要从病历里识别各类指标,另一方面要建立一个医学推理引擎,通过推理得出这份病例的分期。所以看似是一个简单的机器学习算法问题,实际上要嵌入大量的医学逻辑,所以我们研发团队中医学人员比例很高,跟医学团队的配合非常紧密。

医渡云较大的优势就是我们对整个算法的创新、对问题的定义,很多情况下把问题定义清楚格外重要。接下来就是我们在积累的过程中,花了很多时间和资源构建知识体系,而后算法逐步迭代,使得YiduCore处理数据的能力越来越强,也就有更多合作伙伴委托医渡云加工处理数据,形成正向循环。

所以我们一直说,YiduCore是一个迭代的过程。

02

算法创新,重新定义知识图谱

《财经》:你曾提到医渡云的技术方案跟业内机器学习、深度学习的模型不太一样,是“以知识图谱、逻辑知识库为主,嵌入智能驱动”,这该怎么理解呢?

闫峻:这是一个技术专业性非常强的问题,可以从两个方向来看,一是AI技术的发展脉络,二是医疗健康产业的特殊性。

首先看AI发展的进程,早期的AI是以数理逻辑为基础,就是符号系统,或者叫专家系统。它通过一系列的符号逻辑的推理,比如有A且有B,或有C,这几个条件下可以推理出一个怎样的结论。条件描述可能很复杂,但它可以做机器定理证明、辅助决策支持等很多事情,这是早期的符号逻辑。

符号逻辑通常不是数据驱动,而是知识驱动,把专家的知识描述成符号,翻译成机器可以处理的文本,机器就可以通过符号逻辑进行运算。

后来随着数据技术、统计学算法算力的发展,大家开始发现数据不需要人来定义,而是可以让机器通过数据学习这个规律,这就是统计机器学习。随着算法、算力局限性逐渐被突破,近期深度学习发展了起来,也是目前市场上最热门的策略。

这是AI从符号逻辑到统计机器学习的脉络,结合医疗健康产业来看,还有两个重要特性。

第一,相比于整个医学发展的千百年历史,医疗信息化积累的时间很短,仅有这十多年的系统信息数据。如果今天的医疗AI是100%依赖于数据,会有大量珍贵的历史医学知识用不上;如果单纯走符号逻辑拆解,今天的数据就又用不上,所以必须把两者融合起来。

第二,在医疗领域,对结果的可解释性要求非常高。比如在临床辅助系统帮助医生判断病情、推荐诊疗方法时,仅告诉医生该病人得各种疾病的概率值是不够的,从循证医学角度,系统必须告诉医生原因。单纯的机器学习模型,可以输出结论,但无法告知原因。所以最近延伸出来比较热的研究方向,叫做可解释机器学习——希望我的机器学习能够解释。

医渡云现在构建的整个体系是以符号逻辑为基础,把历史医学知识拆解好,变成一个大的知识图谱。数据在其中的目标是,把图谱里所有的东西变成一个可个性化解决的场景问题,这才能满足精准医疗的需求。

传统的知识图谱中,构建的实体和实体之间,会有一条边。举个例子,二型糖尿病、糖尿病足,之间的“边”叫做并发症,意味着糖尿病可能有一个并发症叫糖尿病足。单纯基于知识图谱的临床辅助决策系统会提示医生,他有可能得糖尿病足,给出的概率预测也是基于人群,而非个体。

但在精准医疗的范畴里,该如何解决这个问题?我们把知识图谱中的每一个节点的常量(一个确定的符号),变成一个预测模型。比如以前“糖尿病足”是一个确定性的符号,现在它成为一个变量,病史、生活习惯等指标则是影响变量的因素。

预测模型从哪儿来?就是从构建的深度学习模型来预测。相当于通过千百年的医学知识沉淀,先构建出整体的逻辑架构,基于此,再把通过数据学到的规律逐步嵌入到知识图谱中,让每一个节点之间都是可预测的模型关系。

03

产品创新,助力新冠疫情防控

《财经》:在新冠疫情防控中,医渡云有哪些产品助力提升疫情防控的效率和质量?

闫峻:一个是城市免疫平台,其实也是用到上述技术。我们知道疫情发生后,都需要做流行病学调查,流调报告跟医疗的文本非常像,也是人记录下来的内容。如果靠人工去分析数百份流调报告之间的传播链路,是非常困难的。

我们通过机器把所有行程轨迹里的时间、地点识别出来,并进行人工校验,之后通过AI系统就可以推算出整个链路的交集、最可能的传播路径是什么。

另外还有通过仿真模型,助力政府进行防疫政策。如果疫情防控举措过于严格,虽可以控制好疫情,但也会给生产生活带来巨大负面影响;反之,经济可以快速回归正轨,但对国民健康和安全又存在风险。所以,通过仿真模型跟踪疫情动态、监控医疗资源、还原传染路径等,能有助于疫情防控的动态平衡。

整体而言,从疫情监测预警、模拟仿真、辅助研判,到最后的疫情防控执行追踪,整个链路医渡云有一套完整的解决方案。现在,我们还有小伙伴奋斗在河北战疫的一线。

(作者系《财经》研究员)

编辑|戚万琪

排版|Mia

  专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?-智医疗网

  专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?-智医疗网

  专访 | 医渡云首席AI科学家闫峻:医疗大数据技术如何重新认知现代医学?-智医疗网

  本文所载信息来源于公开资料或访谈,思宇医械观察不保证其准确性与完整性。本文所载信息、材料或分析只提供给收件人作参考之用,不是或不应被出售、购买或认购证券及其他金融工具的要约或要约邀请。 收件人不应单纯依靠此文而取代个人的独立判断。思宇医械观察及其雇员对因使用本文及其内容而引致的损失不负任何责任。

发表评论

您必须 [ 登录 ] 才能发表留言!