无监督学习？Yann LeCun说：或许应该叫它预测性学习

　　新智元报道

　　来源：danrose

　　编辑：白峰

　　【新智元导读】随着机器学习的不断发展，无监督学习在近年来备受关注。Yann LeCun 提出赋予无监督学习新的名字——预测性学习。

　　随着机器学习的不断发展，无监督学习在近年来备受关注。近日，有人提出赋予无监督学习新的名字——预测性学习。推崇这次改名的正是前些日子在推特「大火」的 Facebook 的首席 AI 科学家，Yann LeCun。

Yann LeCun 将「预测性学习」称为「下一个 AI 前沿」。因为在过去的十年中，监督学习有着丰硕的成果。而接下来的十年，无监督学习，即预测性学习可能会变得越来越流行。

　　监督学习、无监督学习和强化学习：机器学习的三驾马车

　　认识无监督学习的新名字之前，我们来看一看机器学习多样的组成元素。最广泛用于应用和业务用途的机器学习类别是监督学习。监督学习需要标记非常非常多的数据，也因此在给定情况下教给模型较为正确的答案。

　　无监督学习和监督学习恰恰相反，使用未标记的数据训练 AI，通常仅用于对数据进行聚类和分组。无监督学习的质量自然不如监督学习。因此，近些年半监督学习也时常被褒奖。半监督学习可以看做监督学习和无监督学习的折中状态。

　　机器学习中还有一个「重要的玩家」强化学习。强化学习主要用于实验和研究案例，到目前为止在商业中使用不多。有科学家指出 AlphaGo 是一个很好的例子，通常通过加强学习来完成游戏模型的教学，但 Alphago 确切架构没有公布，这仅仅是一种猜想。

　　昂贵且复杂的数据标记让监督学习变得困难

　　去年，监督学习取得了长足的发展。例如在 GPU 上进行训练，更多可用的标记训练数据。以及一些技术进步，比如说 ReLU（神经网络中最具成本效益的解决方案）。

　　但是获取标签数据仍然是一个问题。这是非常昂贵的，并且始终会有偏差的数据。偏差的数据会使模型产生偏差，因此开发者始终需要了解模型行为异常的极端情况。科学家们解决这个问题的方法是：如果可以避免使用带标签的数据，而改为使用无标签的数据，则可以以更低的成本和更少的偏差机会去处理更多的数据。

如果将人类智慧与人工智能进行比较，人们意识到很多人类智慧是不受监督的。在我们了解的事物中，很少有学习示例可以教的。因此，即使监督学习给我们带来了巨大的成就，它也有其局限性。无监督学习日益受到重视。

　　无监督学习（预测性学习）正在登上历史舞台

　　正如 Yann LeCun 所说，无监督学习是「填补空白」。填补空白不仅仅是将相似的事物归类，填补空白就像是想象。在训练预测学习模型时，目的是了解当前的世界。

　　一个很好的例子是图像完成问题。图像不完整时，模型想「填补空白」。预测性学习可以做到这一点。

该模型可以预测上下文中可能缺少的内容。另一个非常好的例子是来自 OpenAI 的 GPT-3。GPT-3 是一种语言模型，未经大量数据训练就可以接受训练，并且在此基础上再加上一点点监督学习，就可以拥有一个非常有效的模型。但是，这里预测性学习是模型是基于神经网络的深度学习模型。较早的无监督模型不基于神经网络。　　

　　「预测性学习」可能会改变我们的未来

　　过去，当需要一个解决方案时，我们通常会用监督学习去训练模型。但是监督学习是昂贵的。无监督学习可以为我们提供一种有效的，非常有价值的方式去训练模型，并得到预测性的结果。

　　拍摄广告时，这可以被用于将多余的游客从我们的度假图片或背景物体中删除。它会填补很多地方的空白。另一方面，预测性学习还能用于检测出何时出现异常情况。