文 | 刘志刚

1月24日,北京大学工学院教授朱怀球团队在bioRxiv预印版平台发表《深度学习算法预测新型冠状病毒宿主和感染性》一文中指出,蝙蝠和水貂可能是新型冠状病毒的两个潜在宿主,水貂可能是中间宿主。

深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”-风君雪科技博客

▲论文截图

据朱怀球团队的研究表明,新型冠状病毒与云南菊头蝠中存在的RaTG13冠状病毒一致性高达96%;另外,基于深度学习开发的VHP(病毒宿主预测)方法预测的结构化显示,水貂的病毒的传染性模式更接近新型冠状病毒。

据悉,在此次研究中,该团队使用了基于深度学习模型的AI技术寻找病毒宿主。这可能是国内首次在2019新型冠状病毒的研究中使用深度学习AI取得成果。

AI加入抗击疫情一线,深度学习寻找病毒宿主

一种前所未知的新型病毒出现后,确定病毒宿主是十分重要的。由于病毒复杂的多样性,目前人类已知的病毒和对病毒本身的了解还远远不够,大多数以人类为宿主的病毒,通常对人类造成生命安全威胁之后,才会进一步引起人们的重视。

对一些本不以人类为宿主的病毒来说,其本身也可能突发变异,或者通过中间宿主也可感染至人类。因此,快速寻找鉴别未知病毒的宿主,能够帮助人类了解病毒与宿主间的相互作用,以应对突发变异等潜在威胁,从而有针对性的对病毒进行预防和控制,具有重要意义。

深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”-风君雪科技博客

▲图片来源:新京报网

为了检测新病毒的潜在宿主和致病性,传统的方法是基于通过建立病毒基因库,将新型病毒的DNA序列与已知病毒的基因序列做对比检索,通过比较病毒DNA局部的相似性,从而做出对新病毒宿主的模糊预测。

北京大学朱怀球团队在对2019新型冠状病毒的宿主研究和预测中,通过构建VHP算法模型,将已经提取的新型冠状病毒的基因组,与已有病毒基因数据库做数据检索和对比。在算力的支持下,通过深度学习模型对病毒基因数据的广域检索,实现新型冠状病毒自然宿主的寻找和预测。

VHP模型计算出新型冠状病毒的感染性

朱怀球团队在bioRxiv预印版平台发表的论文中称:“为了构建VHP模型,我们使用了一个双路卷积神经网络用于预测病毒序列宿主;我们把病毒的宿主分为五种类型,包括植物、细菌、无脊椎动物、脊椎动物和人类;输入病毒核苷酸序列,基于深度学习的VHP模型,将为每种宿主类型分别输出5类结果,分别反映出新型冠状病毒在每种类型中感染性。”

通过对VHP模型计算的结果分析,筛选的病毒宿主包括犬、猪、貂、龟和猫。研究人员经过分析比较后认为水貂的病毒的传染性模式更接近新型冠状病毒。

深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”-风君雪科技博客▲图片来源:新京报网

实际上,相比传统的AI机器学习方法,AI深度学习的方法训练出的模型可以适用于多种不同类型的数据,还可以结合多种来源的数据,共同完成一个任务。

在基因数据中,并不是所有的数据都有准确的高质量数据标签,而通过深度生成模型,即使没有高质量标签的数据也能得到充分使用,从而使得模型能够持续的提升性能。

因而,从AI深度学习的种类上来看,除了常见的有监督学习和无监督学习,半监督学习与强化学习更适合,也更需要医学界、生物界更多的关注。

深度学习AI+医疗:应用前景广阔但也有局限性

在AI的应用场景中,医疗行业是其应用前景最为广阔的行业之一。生物信息领域中,制药企业的药物研发、医疗设备收集的健康数据、病患者的诊断以及治疗方案的确定都有深度学习型AI的应用需求。

深度学习的本质,是一个复杂的AI学习算法。目前,深度学习应用最为广泛的是在计算机视觉以及语言识别领域。其中计算机视觉技术在医疗领域也有一定的应用,如医学影像的识别。

不过,深度学习在医疗领域的应用也面临现实应用的局限性,其中之一就是分析过程缺乏解释性。实际上,深度学习本质上也是统计学习的一种,通过对已知数据的汇总和检索,以算法的优化达到某种结果的预测。

深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”-风君雪科技博客▲图片来源:新京报网

也就是说,深度学习算法得出的结果是概率学上对现有数据条件下的结果预测,并不能给出“解题过程”只能给出结果。这也使得不可避免的出现一定的现实结果偏差。

以此次新型冠状病毒宿主研究为例,在VHP模型计算给出结果后,筛选的病毒宿主包括犬、猪、貂、龟和猫,仍需要研究人员对比分析后得出进一步的结论:水貂的病毒的传染性模式更接近新型冠状病毒。

技术之力亦需“跨越偏见”

此外,如果输入数据样本本身带有“大数据偏见”,那么模型计算则会放大这种“偏见”,从而影响结果在现实场景中的准确性。

对于基于深度学习的医疗AI而言,这样的情况也很难以能够说百分之百避免,特别是面对复杂庞大的医疗数据而言,这样的“偏见”带来的结果是人们难以接受的。

因而对于深度学习AI在医疗领域的落地,除了技术实现本身要解决的问题之外,由技术引发蝴蝶效应也更应该获得关注。

从好的一面来看,深度学习型AI在医疗领域的落地,不啻为补充优质医疗资源的“良方”,同时深度学习AI以及大数据等新技术的应用,也为人们在未来面对“新型冠状病毒”之类的突发性传染病给予技术的力量。

05我们将生活在一个分析所有数据的时代

《大数据时代》作者维克托·迈尔-舍恩伯格前瞻性地预见到:“在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。”

深度学习寻找肺炎病毒宿主:AI“进化”的“一小步”-风君雪科技博客▲图片来源:新京报网