历经6年 AI终于在“读图会意”上超越人类

前不久，在中文语言理解权威评测基准CLUE中，阿里巴巴的AI模型在新闻文本上超越了人类识别精确度。现在“读图会意”上，阿里巴巴达摩院在VQA上也超越了人类，这是榜单设立6年来的首次。

8月12日，国际权威机器视觉问答榜单VQA Leaderboard出现关键突破：阿里巴巴达摩院以81.26%的准确率创造了新纪录，让AI在“读图会意”上首次超越人类基准。

继2015年、2018年AI分别在视觉识别及文本理解领域超越人类分数后，人工智能在多模态技术领域也迎来一大进展。

达摩院AliceMind在VQA Leaderboard上创造首次超越人类的纪录

“诗是无形画，画是有形诗。”宋代诗人张舜民曾描绘语言与视觉的相通之处。“读图会意”，即通过视觉理解信息，是人类的一项基础能力，但对AI来说却是要求极高的认知任务。

解决该挑战，对研发通用人工智能有重要意义。近10年来，AI在下棋、视觉、文本理解等单模态技能上突飞猛进，但在涉及视觉-文本跨模态理解的高阶认知任务上，AI过去始终未达到人类水平。

为攻克这一难题而设立的挑战赛VQA Challenge，自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办，吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与，并形成了国际上规模最大、认可度最高的VQA（Visual Question Answering）数据集，其包含超20万张真实照片、110万道考题。

VQA是AI领域难度最高的挑战之一。在测试中，AI需根据给定图片及自然语言问题生成正确的自然语言回答。

这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术：首先对所有图像信息进行扫描，再结合对文本问题的理解，利用多模态技术学习图文的关联性、精准定位相关图像信息，最后根据常识及推理回答问题。

VQA技术自2015年的进展