Facebook公布新AI模型，用机器学习来识别假账号

澎湃新闻记者王心馨

社交网站上的假账号，通常会被欺诈者利用来传播垃圾邮件、网络钓鱼链接或恶意软件。无论是平台上的无辜用户还是平台本身，这类假账户都极其危险。

为了解决这个问题，Facebook正式发布了能打击假账号的工具——DEC，也称为深度实体分类系统（Deep Entity Classification）。这是一套利用机器学习来识别假账号的工具。

据Facebook透露，这套工具不仅会评估可疑帐户的行为，还会评估账号的周边信息，包括可疑帐户的交互帐户和浏览页面行为。Facebook称，使用这套工具后，垃圾邮件和欺诈账号的数量减少了27％。

从Facebook公开的详细信息看，DEC能区分两类假账户。一类是错误分类的账号，这些账号的个人资料被包装成了商业信息页面。要处理这类假账号，相对简单，只要替换个人资料信息就可以。第二类是违法账号，这些账号涉及欺诈、垃圾邮件和违反平台服务条款等行为。对于这类账号处理起来更加棘手，平台需要尽快删除，又不能全部删除相关账号，否则可能会误删真实账号。

那么，整套系统是如何做到的？

DEC的主要方式是通过分析用户的连接模式来区分真假用户。这些模式被称为“深层特征”，其中包括用户朋友的平均年龄或性别分布。Facebook使用了20000种深层特征来刻画用户画像，通过这些深层特征，系统会了解每个用户的行为，也让攻击者难以改变策略来躲避侦查。

深层特征的提取，首先使用的是大量低精度机器生成的标签。这些标签由混合规则和其他机器学习模型生成，可以用来判断用户是真还是假。接着，将这些标签用来训练神经网络，再加上一小批高精度的手工标记数据对整个模型进行微调，这部分数据是由世界各地了解本地文化的人手工生成的。

最终系统可以识别出四种类型的虚假账号：不能代表个人的非法帐户，欺诈者已经接管的真实账户，重复发送创收垃圾邮件的账户，以及操纵账号泄露个人信息的账户。

2019年，Facebook每个季度平均删除20亿个伪造账号。自从使用DEC以来，Facebook称，平台上假账户的数量保持在每月活跃用户的5％左右。但即便是这样，情况也不乐观，在每月有25亿活跃用户的情况下，整个平台仍有1.25亿个伪造帐户。

随着2020年美国总统大选临近，Facebook此时发布DEC系统的详细信息，似乎有些巧合。此前，Facebook曾被指责放纵第三方，泄露用户数据操控选举。“这只是发现一般的违法行为， Facebook并不专门针对任何选举主题。” Facebook社区诚信团队工程经理Daniel Bernhardt在接受媒体采访时称。