95后达摩院实习生击败微软，打破NLP最难任务世界纪录

　　新智元报道，编辑：金磊，元子

　　【新智元导读】阿里 AI 在常识 QA 领域的权威数据集 CommonsenseQA 上刷新世界纪录，超过微软取得第一名，显著提升 AI 的常识推理能力。而这项技术，是一名叫做叶志秀的 95 后“实习生”，在达摩院科学家指导下完成的实习成果！来新智元和群，一起讨论。

　　正所谓长江后浪推前浪，又一个“别人家的孩子多优秀”系列。

　　最近，一个年轻人火了：95 后的实习生在常识 QA领域的权威数据 CommonsenseQA 上刷新了世界纪录！

　　这位年轻人名叫叶志秀，他的这项工作是在达摩院科学家指导下完成的，并超越了微软，取得了第一名的好成绩。

　　什么是 CommonsenseQA？

　　CommonsenseQA 是为了研究基于常识知识的问答而提出的数据集，比此前的 SWAG、SQuAD 数据集难度更高。目前最流行的语言模型 BERT 在 SWAG、SQuAD 上的性能已经接近或超过人类，但在 CommonsenseQA 上的准确率还远低于人类。

　　阿里巴巴达摩院语音实验室提出了 AMS 方法，显著提升 BERT 模型的常识推理能力。AMS 方法使用与 BERT 相同的模型，仅预训练 BERT，在不提升模型计算量的情况下，将 CommonsenseQA 数据集上的准确率提升了 5.5%，达到 62.2%。

　　CommonsenseQA 相关论文已在 arXiv 上发表，并获得NAACL 2019 最佳资源论文。

　　链接：

　　https://arxiv.org/pdf/1811.00937.pdf

　　作者：

　　Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant（以色列特拉维夫大学、艾伦人工智能研究所）

　　摘要：

　　人们通常利用丰富的世界知识和特定语境来回答问题。近期研究主要聚焦于基于关联文档或语境来回答问题，对基础知识几乎没有要求。为了研究使用先验知识的问答，我们提出了一个关于常识问答的新型数据集 CommonsenseQA。为了捕捉关联之外的常识，我们从 ConceptNet (Speer et al.， 2017) 中抽取了多个目标概念，它们与某个源概念具备同样的语义关系。

　　我们让众包工人编写提及源概念的选择题，并区分每个目标概念之间的差别。这鼓励众包工人编写具备复杂语义的问题，而问答这类问题通常需要先验知识。我们通过该步骤创建了 12247 个问题，并用大量强基线模型做实验，证明该新型数据集是有难度的。我们的最优基线基于 BERT-large (Devlin et al.， 2018)，获得了 56% 的准确率，低于人类准确率（89%）。

　　下图是构建 CommonsenseQA 数据集的过程示例：