机器学习大赛又出骗子！窃取私有数据集一万美元到手

图：作弊者通过宠物领养平台Petfinder.my收集有关Private Leaderboard的答案，从而获得竟赛冠军

【网易智能讯1月16日消息】世界最知名的数据挖掘以及机器学习竞赛平台Kaggle刚刚宣布，获得最新竞赛的冠军团队Bestpetting因涉嫌作弊而被剥夺了冠军头衔。该团队通过宠物领养网站Petfinder.my收集Private Leaderboard的答案，然后将这些数据隐藏在他们提交的文件中，并于2019年4月9日赢得年度冠军。在总共25000美元的奖金池中，Bestpetting团队获得了10000美元，如今这笔资金已经无法追回。

何为Kaggle竞赛？

Kaggle(谷歌子公司)是一个围绕建立机器学习模型的竞赛而建立起来的在线社区，该平台的奖金池高达150万美元，吸引了各种各样的数据玩家。Kaggle为竞赛提供数据集，以及将用于决定获胜而提交的指标。参赛者分析给定的数据，构建模型以匹配期望的结果，然后提交结果(通常与代码一起提交)。为了防止有人作弊，机器学习竞赛使用没有标记的数据，并分两个阶段使用：

第一，当比赛结束后，参赛者只拥有作为未标记数据的数据集中的“私人”部分，用于帮助选择获胜者。在理想情况下，此数据可以表示模型将如何对以前从未见过的数据执行相关操作。

第二，为了在比赛期间对参赛者进行排名，参赛团队提交的作品会根据数据集中专门用于leaderboard(临时成绩)的部分进行评分。就像“私人”测试数据一样，参赛者可以使用这些数据，但没有标准。单独针对leaderboard指标进行优化的团队，通常会因为不适用于数据集的“私人”部分而失败。

使用私人数据作弊

这种竞赛形式的结果是，如果某个团队获得了私有测试数据集的基本事实答案，那么它获胜的可能性就会大增。但作弊团队构建的模型往往是无效的，会使竞赛变得毫无意义。在这种情况下，作弊者会在提交答案的同时附上自己的答案。

其他的作弊方式可能更难以察觉。其中一种方法是使用完整的数据集来优化超参数，从而创建一个看似更有效的模型。也许作弊团队会选择更容易检测的方法，因为他们根本没有能力创建值得被选入leaderboard的模型，也有可能是因为他们不愿费更多心思。

解决这些问题的办法可能是将私人数据完全排除在竞赛之外，提交必须包括提供API来生成预测的代码，但这也将防止参赛者知道私人和leaderboard数据中的功能分布。

Kaggle竞赛的阴暗面

Kaggle竞赛有很多潜在的问题。有人在检测信用卡诈骗的竞赛中偶然发现了一个例子。一种流行的模型正在使用来自未来的信息进行培训，这将使其在实践中无法使用，毕竟银行无法预测这些尚未发生的事情。许多模型使用数据集的方式会产生更高的分数，但会使模型对竞赛组织者毫无用处。不过，这些模型仍然可以赢得竞赛，因为他们没有违反任何规则。

由于可能存在的这些漏洞和无用结果，竞赛组织者必须对他们的数据和规则格外警惕和谨慎。有些人要求举行多轮竞赛选拔胜者，有些人建议平均分配奖金给更多的顶级参赛者。

作弊惯犯

Bestpetting团队由帕维尔·普莱斯科夫（Pavel Pleskov）、纳雷克·马洛扬(Narek Maloyan)和费多尔·多布里扬斯基(Fedor Dobryanski)组成。这并不是普莱斯科夫第一次破坏Kaggle竞赛，也不是第一次被指控作弊，只是过去Kaggle竞赛组织方没有相关预防措施，而且普莱斯科夫本身也是Grandmaster级别的大牛。

图2：在Kaggle竞赛中被曝作弊的帕维尔·普莱斯科夫

普莱斯科夫被剥夺冠军头衔，并被禁止进入Kaggle平台，记者还联系了普莱斯科夫的雇主H2O.ai，请其发表评论。后者的发言人英格丽德·伯顿（Ingrid Burton）回应称：“今天早些时候，我们已经知道了情况。普莱斯科夫不再与H2O.ai有关联，立即生效。我们还将与Petfinder.my联系，看看我们能为他们提供什么帮助。”

我门没有找到费多尔·多布里扬斯基(Fedor Dobryanski)的进一步信息，他也被禁止进入Kaggle平台。不过，纳雷克·马洛扬(Narek Maloyan)没有被禁。

Kaggle有更光明的未来