MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet

　　近日，麻省理工学院研究团队发表了一篇论文指控知名数据集 ImageNet 存在系统性 Bug，该论文还被国际机器学习大会 ICML2020 接收。

　　同时，这篇论文名为《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》，也发表在了在预印论库 arXiv 上。

　　麻省理工研究团队之所以在 ICML 大会上介绍这项研究，是因为近期陷入的“Tiny Images”争议事件。

　　就在本月初，麻省理工学院（MIT）宣布永久删除了包含 8000 万张图像的 Tiny Images 数据集，并公开表示歉意。其原因是，有关研究人员发表了一篇论文指控 Tiny ImageNet 数据集存在多项危险标签，包括种族歧视、性别歧视、色情内容等，而且指控有理有据。

论文中表明，ImageNet 在语义结构分析上，使用的 WordNet 名词，它包含了种族歧视等危险内容，同时，由于图像过小，数据量过大，并未手动对图像标签进行逐一核对，由此导致了问题的出现。

　　众所周知，知名数据集 ImageNet 也使用了 WordNet 用于语义结构分析，那么，ImageNet 数据集是否也存在同样的问题？对此，麻省理工研究团队给出了答案。

　　ImageNet 基准测试与实际不符

　　大规模 ImageNet 数据集的出现，可以说意味着机器学习深度变革的一个新起点。2009 年，李飞飞领衔的研究团队在计算机视觉与识别模式大会（CVPR）上首次推出 ImageNet，ImageNet 数据集包含 10000 个分类，超过一百万个图像，数据量之大是此从未有过的。

　　正是因数据量大、质量高，ImageNet 数据集被广泛用于预训练和基准测试。但是，麻省理工研究团队在最近的研究中却指出：

ImageNet 存在明显的“系统标注问题”，导致其用作基准数据集时与实际情况并不一致。

　　他们发现，ImageNet 数据集中大约有 20% 的图像包含两个或更多的对象目标。

　　在通过对多个目标识别模型进行分析后，数据表明包含多个对象目标的照片会导致总体基准的准确性下降 10%。

　　简单举个栗子：假如此图是 ImageNet 数据集中的一张高清图像，我们可以看到图片中不止包含了一个对象目标，有女孩、吉他和唱麦，而且图片的主目标应该是女孩。

　　但 ImageNet 的数据标签可能不是女孩，也可能是唱麦或者吉他，重要的是 ImageNet 只会标注一个标签，而这样就可能会导致 ImageNet 在目标识别中出现失误。

　　研究人员在论文中表明，

“总体而言，单个 ImageNet 标签可能不能总是捕获到 ImageNet 图像的主要表物体目标。但是，当我们进行培训和评估时，却将标签视为图像的根本事实，因此，这可能会导致 ImageNet 基准测试与现实世界中的对象识别任务之间出现不一致，而且这在模型执行和评估性能方面都是如此。”

　　看到这里你可能会疑惑，为什么不能准确对图像进行标记？其实问题的关键在于 ImageNet 所使用的标记工具WorldNet。

　　WordNet 名词标记是关键

　　WordNet 在 1980 年代由 George Armitage Miller 创立，被广泛用于数据集的收集和标记过程。简单的理解，ImageNet 会根据 WorldNet 提供的名词和它的语义层次结构，在搜索引擎或者 Flickr 之类的网站进行图像搜索，作为数据集的初始来源。

　　当 WordNet 提供一个名词后，根据它设定的语音层次结构，ImageNet 需要对该名词的父类节点同义词进行扩充，并以此作为搜索的关键词。比如“ whippet”分类名词（父类节点为：“dog”）的搜索还会包括“ whippet dog” 。

　　这类似于我们经常看到的“相关搜索”。为了进一步扩展图像池，数据集创建者还会使用多种语言进行了搜索。

　　但这里的重点是，对于每个检索到的图像已经确定了标签，如果该标签包含在数据集中，则将分配给该图像。也就是说，标签仅由用于相应搜索查询的 WordNet 节点给出。

　　而在这一过程中，WordNet 的语义结构会将非主要目标的图像纳入数据集中，进而出现上文提到标记偏差。如论文中的数据显示，同一分类标签却出现了不同的物体目标。（如图）

　　既然如此，那为什么 WordNet 名词还能够广泛应用于数据集创建过程中呢？

　　一方面是因为 WorldNet 可以完成大量数据的自动标记工作。我们知道，所有数据集在使用前都要先完成标记任务，而一个优秀的数据集规模又是很大的，如果全部手动标记，难度非常高，而 WorldNet 却可以很好的解决这一问题。

　　另一方面对于 ImageNet 而言，WordNet 获取的只是初始数据标签，其准确性还需要通过相关模型进行再次验证。总体来讲，ImageNet 数据集的创建过程，分为自动图像收集（automated data collection）和众包过滤（crowd-sourced filtering）两个阶段，而众包过滤就是所谓的审核阶段，它分为以下 5 个步骤：

潜在标签（Candidate Labels）：通过现有 ImageNet 图像标签与模型预测的前 5 个标签进行组合，获得每张图像的潜在标签。
选择高频率标签（Selection Frequency）：通过 Mechanical Turk（MTurk）平台，将潜在标签与注释内容对比，经过反复过滤循环后，出现频率最高的为最佳标签（一般少于 5 个）。
CLASSIFY 任务：给获得的少量多标签（Multiple labels）重新定义一组新的注释内容，根据注释信息为不同对象赋予标签，并确定一个主要对象的标签，这个过程称为 CLASSIFY。
对象注释（Object Annotation）：汇总以上训练后，获得更为细粒度的图像注释；

　　与原始 ImageNet 标签相比，经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容，但研究者发现，这些注释内容可能并没有达到期待的效果，如下图，CONTAINS 任务会选择多个标签对图像有效，而对于 70% 的图像而言，注释选择的标签频率至少是 ImageNet 的原始标签的一半。

而且下图表明，尽管只感知到单个对象，它们也经常会选择多达 10 个类别标签。因此，对于单一目标的图像，ImageNet 验证过程也无法得到准确的标签。

　　因此，可以说图像标签在很大程度上依然取决于自动检索（WorldNet）过程，同时众包过滤的审查过程还有很大的提升空间。

　　对于未来如何优化数据集的创建任务，研究人员在论文中表明，我们认为开发注释流程，尤其是审查阶段以更好地捕获基本事实，同时保持可扩展性是未来研究的重要途径。”

　　涉嫌种族歧视，大规模数据集争议不断

　　作为人工智能技术的基础，数据集在诸多研究领域都有着广泛的使用场景，尤其是在计算机视觉领域。近些年，因数据集的使用引发的隐私泄露、种族歧视等问题接连不断，导致人工智能技术的发展备受争议。

　　除了近期麻省理工学院因涉嫌种族歧视而删除了包含 8000 张图像的 Tiny Image 数据外，此前，一款图像修复算法 PULSE，在学术圈同样引起轩然大波。有网友发现，PULSE 在修复马赛克图像时，将奥巴马的人脸图像变成了高分辨率的白人，这一事件引起了黑人网友的不满。

　　对此，图灵奖之父 Lecun 发表 twitter 称，训练结果存在种族偏见，是因为数据集本身带有偏见，工程师在使用过程中应该注意这一点。

　　今年因数据集而引发种族歧视事件颇多，而解决这些数据集争议，无非是从数据收集和标记阶段进行改进。研究人员称，对于大型数据集，理想的方法是按指定目标在全世界范围内收集图像，并让专家按确切类别进行手动筛选和标记。这里需要注意的是，非专家的人工标记也可能出现错误。

　　但从当前来看，这种方法非常不切实际。事实上，诸如 ImageNet 此类数据集均是从互联网搜索引擎抓取的图像，质量参差不齐，而图像审查不够严谨。同时大量数据的专家手动标记也很难实现。不过，如本次研究所称，可以通过技术进一步改善图像自动审查的过程来提高数据集的质量。

　　此外，目前学术界已经越来越关注数据集相关缺陷问题，在本月初计算机语言协会（ACL）还重点讨论了这一问题。

　　引用链接：

　　https://arxiv.org/abs/2005.11295

　　https://arxiv.org/pdf/2005.11295.pdf

　　https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

　　https://venturebeat.com/2020/07/01/mit-takes-down-80-million-tiny-images-data-set-due-to-racist-and-offensive-content/

MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet

小米有品众筹六合一手电：99元 1000流明高光

我试了下网易云音乐的“一起听”，就还挺温暖的

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

ctf加载程序需要自启动吗(ctf加载程序开机启动能禁用吗)

c语言转义字符占几个字节(c语言转义字符的使用输出字符串)

有线中继插wan口还是lan口(有线桥接时接wan口还是lan口)

shell循环分为几种(shell的循环控制结构)

mt6771v处理器相当于骁龙多少(联发科mt6771v处理器怎么样)

删除数据库表的命令(删除表的内容sql命令是什么)

怎么练口才(怎么训练自己的说话能力)

俄罗斯人口是多少(2021年中国人口是多少)

火葬场特点介绍火葬场技术设备介绍

最新评论

标签

关注我们么么哒！

MIT再爆知名数据集ImageNet存在系统性Bug，祸端还是WordNet

小米有品众筹六合一手电：99元 1000流明高光

我试了下网易云音乐的“一起听”，就还挺温暖的

最新文章

realme 市场沟通总监：真我 GT7 Pro 核心部件全部来自国际顶尖供应链合作

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！