近日,香港大学统计与精算学系系主任尹国圣教授联合其他多位学者发表一篇最新论文,介绍了一个最新的新冠肺炎在线诊断系统(点击查看论文原文)。据了解,该系统对新冠肺炎诊断的准确率88%、AUC值93%、敏感度86%、特异度90%,

香港大学尹国圣教授发布新冠肺炎AI成果 准确率达88%-风君雪科技博客

参与这项研究的人员,还有西南财经大学统计学院助理教授刘斌博士、研究生高晓雪、何孟霜、刘霖以及刘斌博士的同事吕凤毛(西南财经大学统计学院助理教授)。

目前,论文正在评审中,但是COVID-19诊断系统已经在线、免费使用,Python程序及数据完全开源(开源地址:https://github.com/xiaoxuegao499/LA-DNN-for-COVID-19-diagnosis)

尹国圣教授表示,通过对非典疫情及各类流感病毒的研究,香港大学一直都走在世界科研的最前沿。2003年非典期间,深圳和香港的科研人员就曾联合宣布,从果子狸等野生动物体内找到非典病毒前体。

香港大学尹国圣教授发布新冠肺炎AI成果 准确率达88%-风君雪科技博客

基于生物统计和临床试验方向的多年研究经验,从2020年1月底,尹国圣教授带领的研究团队开始尝试一些新冠肺炎方面的研究,基于CT图像诊断是其中一项工作。

但是,由于没有公开的CT图像数据集,团队需要花大量的时间去寻找开放的样本并对样本进行标记。

后来,medRxiv上有一项工作,整理了一些关于新冠病人CT图像分析的论文预印本。该论文从medRxiv和bioRxiv文章的预印本中提取了746张病人的CT图像,并训练了一个新冠病人二分类的神经网络。

然而,其结果显示的预测效果还未能达到临床标准。

尹国圣教授认为,一个原因是样本量较小,另一个重要原因是没有充分利用CT图像样本自身丰富的标注信息。这批CT数据跟传统的医疗图像数据最大的差别是,每个样本都来自一篇医学影像学论文。

在这些文章中,临床医生对新冠病人的胸部CT病灶特征做了详细的描述,有些还和其他常见肺部疾病的病灶特征做了仔细的对比分析。

因此,在尹教授看来,“这批数据,虽然样本数量有限,但信息量极大,是一个具有代表性,价值很高的数据集。”

研究人员进一步对样本附带的文本信息进行了针对性的研究,发现760篇论文涵盖了对于新冠肺炎的五种病灶(Lesion)的描述,其中每个病人CT影像上均会出现其中一种或者多种病灶。通过对新冠确诊病人的CT图像的诊断描述进行分析,这五种病灶是影像学上对新冠肺炎诊断的主要标准。

香港大学尹国圣教授发布新冠肺炎AI成果 准确率达88%-风君雪科技博客

于是,团队设计出一个基于CT图像的Lesion-Attention深度神经网络模型(LA-DNN)。

模型一方面学习图像中可以区分新冠病人和非新冠病人的特征,另一方面把模型的“注意力”集中在病灶区域,即学习多标签病灶,这就是团队提出的LA-DNN(Lesion-Attention Deep Neural Networks)模型,如同临床医生通过CT图像判断病情时会侧重关注异常的病灶区域而略过正常区域一样,模型同时训练两个任务,相互协调,从而使得模型性能得到显著的提升,其各项指标均达到了临床标准。

同时,团队也采用了迁移学习,即利用预训练的VGG、DenseNet等神经网络来作为模型的骨干网络。

新冠CT图像诊断系统上线后,团队仍然在继续收集新的样本,在线系统的训练样本比最初的样本数量翻了一倍,并定期重新训练模型,在线系统的效果比论文中的结果又有提升。

对于该成果未来的应用方向,尹教授表示,希望前线抗击疫情的医务人员使用该系统,分享数据、开展合作研究,帮助进一步测试和改进系统。

“目前,中国的疫情得以控制,而其他许多国家和地区仍然存在很大压力,希望该系统可以在疫情仍然严重的区域发挥作用,减轻核酸检测的负担。”