近日,麻省理工学院研究团队发表了一篇论文指控知名数据集 ImageNet 存在系统性 Bug,该论文还被国际机器学习大会 ICML2020 接收。

  同时,这篇论文名为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》,也发表在了在预印论库 arXiv 上。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  麻省理工研究团队之所以在 ICML 大会上介绍这项研究,是因为近期陷入的“Tiny Images”争议事件。

  就在本月初,麻省理工学院(MIT)宣布永久删除了包含 8000 万张图像的 Tiny Images 数据集,并公开表示歉意。其原因是,有关研究人员发表了一篇论文指控 Tiny ImageNet 数据集存在多项危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。

论文中表明,ImageNet 在语义结构分析上,使用的 WordNet 名词,它包含了种族歧视等危险内容,同时,由于图像过小,数据量过大,并未手动对图像标签进行逐一核对,由此导致了问题的出现。

  众所周知,知名数据集 ImageNet 也使用了 WordNet 用于语义结构分析,那么,ImageNet 数据集是否也存在同样的问题?对此,麻省理工研究团队给出了答案。

  ImageNet 基准测试与实际不符

  大规模 ImageNet 数据集的出现,可以说意味着机器学习深度变革的一个新起点。2009 年,李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出 ImageNet,ImageNet 数据集包含 10000 个分类,超过一百万个图像,数据量之大是此从未有过的。

  正是因数据量大、质量高,ImageNet 数据集被广泛用于预训练和基准测试。但是,麻省理工研究团队在最近的研究中却指出:

ImageNet 存在明显的“系统标注问题”,导致其用作基准数据集时与实际情况并不一致。

  他们发现,ImageNet 数据集中大约有 20% 的图像包含两个或更多的对象目标。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  在通过对多个目标识别模型进行分析后,数据表明包含多个对象目标的照片会导致总体基准的准确性下降 10%。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  简单举个栗子:假如此图是 ImageNet 数据集中的一张高清图像,我们可以看到图片中不止包含了一个对象目标,有女孩、吉他和唱麦,而且图片的主目标应该是女孩。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  但 ImageNet 的数据标签可能不是女孩,也可能是唱麦或者吉他,重要的是 ImageNet 只会标注一个标签,而这样就可能会导致 ImageNet 在目标识别中出现失误。

  研究人员在论文中表明,

“总体而言,单个 ImageNet 标签可能不能总是捕获到 ImageNet 图像的主要表物体目标。但是,当我们进行培训和评估时,却将标签视为图像的根本事实,因此,这可能会导致 ImageNet 基准测试与现实世界中的对象识别任务之间出现不一致,而且这在模型执行和评估性能方面都是如此。”

  看到这里你可能会疑惑,为什么不能准确对图像进行标记?其实问题的关键在于 ImageNet 所使用的标记工具WorldNet。

  WordNet 名词标记是关键

  WordNet 在 1980 年代由 George Armitage Miller 创立,被广泛用于数据集的收集和标记过程。简单的理解,ImageNet 会根据 WorldNet 提供的名词和它的语义层次结构,在搜索引擎或者 Flickr 之类的网站进行图像搜索,作为数据集的初始来源。

  当 WordNet 提供一个名词后,根据它设定的语音层次结构,ImageNet 需要对该名词的父类节点同义词进行扩充,并以此作为搜索的关键词。比如“ whippet”分类名词(父类节点为:“dog”)的搜索还会包括“ whippet dog” 。

  这类似于我们经常看到的“相关搜索”。为了进一步扩展图像池,数据集创建者还会使用多种语言进行了搜索。

  但这里的重点是,对于每个检索到的图像已经确定了标签,如果该标签包含在数据集中,则将分配给该图像。也就是说,标签仅由用于相应搜索查询的 WordNet 节点给出。

  而在这一过程中,WordNet 的语义结构会将非主要目标的图像纳入数据集中,进而出现上文提到标记偏差。如论文中的数据显示,同一分类标签却出现了不同的物体目标。(如图)

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  既然如此,那为什么 WordNet 名词还能够广泛应用于数据集创建过程中呢?

  一方面是因为 WorldNet 可以完成大量数据的自动标记工作。我们知道,所有数据集在使用前都要先完成标记任务,而一个优秀的数据集规模又是很大的,如果全部手动标记,难度非常高,而 WorldNet 却可以很好的解决这一问题。

  另一方面对于 ImageNet 而言,WordNet 获取的只是初始数据标签,其准确性还需要通过相关模型进行再次验证。总体来讲,ImageNet 数据集的创建过程,分为自动图像收集(automated data collection)和众包过滤(crowd-sourced filtering)两个阶段,而众包过滤就是所谓的审核阶段,它分为以下 5 个步骤:

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  • 潜在标签(Candidate Labels):通过现有 ImageNet 图像标签与模型预测的前 5 个标签进行组合,获得每张图像的潜在标签。

  • 选择高频率标签(Selection Frequency):通过 Mechanical Turk(MTurk)平台,将潜在标签与注释内容对比,经过反复过滤循环后,出现频率最高的为最佳标签(一般少于 5 个)。

  • CLASSIFY 任务:给获得的少量多标签(Multiple labels)重新定义一组新的注释内容,根据注释信息为不同对象赋予标签,并确定一个主要对象的标签,这个过程称为 CLASSIFY。

  • 对象注释(Object Annotation):汇总以上训练后,获得更为细粒度的图像注释;

  与原始 ImageNet 标签相比,经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容,但研究者发现,这些注释内容可能并没有达到期待的效果,如下图,CONTAINS 任务会选择多个标签对图像有效,而对于 70% 的图像而言,注释选择的标签频率至少是 ImageNet 的原始标签的一半。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客而且下图表明,尽管只感知到单个对象,它们也经常会选择多达 10 个类别标签。因此,对于单一目标的图像,ImageNet 验证过程也无法得到准确的标签。

MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet-风君雪科技博客

  因此,可以说图像标签在很大程度上依然取决于自动检索(WorldNet)过程,同时众包过滤的审查过程还有很大的提升空间。

  对于未来如何优化数据集的创建任务,研究人员在论文中表明,我们认为开发注释流程,尤其是审查阶段以更好地捕获基本事实,同时保持可扩展性是未来研究的重要途径。”

  涉嫌种族歧视,大规模数据集争议不断

  作为人工智能技术的基础,数据集在诸多研究领域都有着广泛的使用场景,尤其是在计算机视觉领域。近些年,因数据集的使用引发的隐私泄露、种族歧视等问题接连不断,导致人工智能技术的发展备受争议。

  除了近期麻省理工学院因涉嫌种族歧视而删除了包含 8000 张图像的 Tiny Image 数据外,此前,一款图像修复算法 PULSE,在学术圈同样引起轩然大波。有网友发现,PULSE 在修复马赛克图像时,将奥巴马的人脸图像变成了高分辨率的白人,这一事件引起了黑人网友的不满。

  对此,图灵奖之父 Lecun 发表 twitter 称,训练结果存在种族偏见,是因为数据集本身带有偏见,工程师在使用过程中应该注意这一点。

  今年因数据集而引发种族歧视事件颇多,而解决这些数据集争议,无非是从数据收集和标记阶段进行改进。研究人员称,对于大型数据集,理想的方法是按指定目标在全世界范围内收集图像,并让专家按确切类别进行手动筛选和标记。这里需要注意的是,非专家的人工标记也可能出现错误。

  但从当前来看,这种方法非常不切实际。事实上,诸如 ImageNet 此类数据集均是从互联网搜索引擎抓取的图像,质量参差不齐,而图像审查不够严谨。同时大量数据的专家手动标记也很难实现。不过,如本次研究所称,可以通过技术进一步改善图像自动审查的过程来提高数据集的质量。

  此外,目前学术界已经越来越关注数据集相关缺陷问题,在本月初计算机语言协会(ACL)还重点讨论了这一问题。

  引用链接:

  https://arxiv.org/abs/2005.11295

  https://arxiv.org/pdf/2005.11295.pdf

  https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

  https://venturebeat.com/2020/07/01/mit-takes-down-80-million-tiny-images-data-set-due-to-racist-and-offensive-content/