Science：有调查有真相！某些AI领域多年无实际进展

　　5 月 29 日，Science 刊登了一篇标题为“人工智能某些领域的核心进展一直停滞不前”的文章，在文章里，作者 Matthew Hutson 提到：一些多年之前的“老算法”如果经过微调，其性能足以匹敌当前的 SOTA。

　　另外，作者在文章中还列举了一些论文，这些论文对当前关键的 AI 建模技术进行了分析，所有的分析结果主要有两种：

　　1、研究员声称的核心创新只是对原算法的微改进；

　　2、新技术与多年前的旧算法在性能上相差不大。

　　具体到技术层面，论文对比分析的 AI 建模方法包括：神经网络剪枝、神经网络推荐算法、深度度量学习、对抗性训练、语言模型。

　　科研有风险，入坑需谨慎。下面，AI 科技评论简要介绍这几篇论文，为大家提供避坑指南。

　　神经网络剪枝：评价指标模糊

　　论文地址：

　　https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf

　　对神经网络剪枝技术进行对比分析的论文是“What is the State of Neural Network Pruning?”，论文一作是来自麻省理工的研究员 Davis Blalock。

　　他们通过对比 81 相关篇论文，并在对照条件下对数百个模型进行修剪后，明显发现神经网络剪枝这一领域并没有标准化的基准和指标。换句话说，当前最新论文发表的技术很难进行量化，所以，很难确定该领域在过去的三十年中取得了多少进展。

　　主要表现在：

　　1、许多论文虽然声明提高了技术水平，但忽略了与其他方法进行比较（这些方法也声称达到了 SOTA）。这种忽略体现两个方面，一个是忽略 2010 年之前的剪枝技术，另一个是忽略了现在的剪枝技术。

　　2、数据集和架构都呈现“碎片化”。81 篇论文一共使用了 49 个数据集、132 个体系结构和 195 个(数据集、体系结构)组合。

　　3、评价指标“碎片化”。论文使用了各种各样的评价指标，因此很难比较论文之间的结果。

　　4、混淆变量。有些混淆的变量使得定量分析变得十分困难。例如，初始模型的准确度和效率、训练和微调中的随机变化等等。

　　在论文的最后，Davis Blalock 提出了具体的补救措施，并引入了开源的框架 ShrinkBench，用于促进剪枝方法的标准化评估。另外，此篇论文发表在了 3 月份的 MLSys 会议上。

　　神经网络推荐算法：18 种算法无一幸免

　　论文下载地址：https://dl.acm.org/doi/pdf/10.1145/3298689.3347058

　　对神经网络推荐算法进行分析的论文是 “ Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches ”，作者是来自意大利米兰理工大学的研究员。

　　在论文中，作者对当前排名靠前的几种推荐算法进行了系统分析，发现近几年顶会中提出的 18 种算法，只有 7 种能够合理的复现。还有另外 6 种，用相对简单的启发式方法就能够胜过。剩下的几种，虽然明显优于 baselines，但是却打不过微调过的非神经网络线性排名方法。

　　导致这种现象的原因，作者分析了三点：1、弱基准（ weak baselines）；2、建立弱方法作为新基准；3、在比较或复制不同论文的结果方面存在差异。

　　为了得到上述结果，作者在论文中介绍，其共进行了两个步骤：第一步是用相关论文提供的源代码、和数据尝试复现论文结果；

　　第二步，重新执行了原始论文中报告的实验，但也在比较中加入了额外的基线方法，具体而言，其使用了基于用户和基于项目的最近邻启发式方法，以及简单的基于图形的方法（graph-based approach）进行比较。

　　深度度量学习：该领域 13 年来并无进展

　　论文下载地址：https://arxiv.org/pdf/2003.08505.pdf

　　对深度度量学习进行分析的文章来自 Facebook AI 和 Cornell Tech 的研究人员，他们发表研究论文预览文稿标题为“A Metric Learning Reality Check”。

　　在论文中，研究员声称近十三年深度度量学习（deep metric learning）领域的目前研究进展和十三年前的基线方法(Contrastive, Triplet) 比较并无实质提高。

　　研究员一共指出了现有文献中的三个缺陷：不公平的比较、通过测试集反馈进行训练、不合理的评价指标。

　　不公平的比较：一般大家声明一个算法性能优于另一个算法，通常需要确保尽可能多的参数不变，而在度量学习的论文中不是如此。另外，一些论文中所提到的精度提高其实只是所选神经网络带来的，并不是他们提出的“创新”方法。例如 2017 年的一篇论文声称使用 ResNet50 获得了巨大的性能提升，而实际上他的对比对象是精度较低的 GoogleNet。

　　通过测试集反馈进行训练：不仅是度量学习领域，大多数论文都有这一通病：将数据集一半拆分为测试集，一半拆分为训练集，不设验证集。在具体训练的过程中，定期检查模型的测试集精度，并报告最佳测试集精度，也就是说模型选择和超参数调优是通过来自测试集的直接反馈来完成的，这显然会有过拟合的风险。

　　不合理的评价指标：为了体现准确性，大多数度量学习论文都会报告 Recall@K、归一化相互信息(NMI)和 F1 分数。但这些一定是最好的衡量标准吗？如下图三个嵌入空间，每一个 recall@1 指标评价都接近满分，而事实上，他们之间的特征并不相同。此外，F1 和 NMI 分数也接近，这在一定程度上说明，其实，这几个指标并没带来啥信息。

　　三个 toy 示例：不同的精确指标如何评分。

　　在指出问题的同时，FB 和康奈尔的研究员自然也指出了改进建议，针对上述三个缺点建议进行公平比较和重复性实验、通过交叉验证进行超参数搜索、采用更加准确的信息性、准确性度量。

　　对抗性训练：所有改进都可通过“提前停止”实现

　　论文下载地址：https://openreview.net/pdf?id=ByJHuTgA-

　　对“对抗性训练”进行研究的论文标题是“Overfitting in adversarially robust deep learning”，第一作者是来自卡内基梅陇大学的研究员 Leslie Rice。

　　在论文中，作者提到机器学习算法的进步可以来自架构、损失函数、优化策略等的改变，对这三个因素中的任何一个进行微调都能够改变算法的性能。

　　他的研究领域是对抗训练，他说：经过训练的图像识别模型可以免受黑客的 “对抗性攻击”，早期的对抗训练方法被称为投影梯度下降算法(projected gradient descent)。

　　近期的很多研究都声称他们的对抗训练算法比投影梯度下降算法要好的多，但是经过研究发现，几乎所有最近的算法改进在对抗性训练上的性能改进都可以通过简单地使用“提前停止”来达到。另外，在对抗训练模型中，诸如双下降曲线之类的效应仍然存在，观察到的过拟合也不能很多的解释。

　　最后，作者研究了几种经典的和现代的深度学习过拟合补救方法，包括正则化和数据增强，发现没有一种方法能超得过“提前停止”达到的收益。所以，他们得出结论：PGD 之类的创新很难实现，当前的研究很少有实质性改进。

　　语言模型：LSTM 仍然一枝独秀

　　对语言翻译进行研究的论文名为“On the State of the Art of Evaluation in Neural Language Models，此论文是 DeepMind 和牛津大学合力完成。

　　在论文中，作者提到神经网络架构的不断创新，为语言建模基准提供了稳定的最新成果。这些成果都是使用不同的代码库和有限的计算资源进行评估的，而这种评估是不可控的。

　　根据其论文内容，作者一共主要研究了三个递归模型架构（recurrent architectures），分别是：LSTM、 RHN（Recurrent Highway Network）、NAS。研究 RHN 是因为它在多个数据集上达到了 SOTA，而研究 NAS 是因为它的架构是基于自动强化学习的优化过程的结果。

　　最后，作者通过大规模的自动黑箱超参数调优，重新评估了几种流行的体系结构和正则化方法，得出的一个结论是：标准的 LSTM 体系结构在适当的正则化后，其性能表现优于“近期”的模型。

　　via https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real