澎湃新闻记者 王心馨

社交网站上的假账号,通常会被欺诈者利用来传播垃圾邮件、网络钓鱼链接或恶意软件。无论是平台上的无辜用户还是平台本身,这类假账户都极其危险。

为了解决这个问题,Facebook正式发布了能打击假账号的工具——DEC,也称为深度实体分类系统(Deep Entity Classification)。这是一套利用机器学习来识别假账号的工具。

Facebook公布新AI模型,用机器学习来识别假账号-风君雪科技博客

据Facebook透露,这套工具不仅会评估可疑帐户的行为,还会评估账号的周边信息,包括可疑帐户的交互帐户和浏览页面行为。Facebook称,使用这套工具后,垃圾邮件和欺诈账号的数量减少了27%。

从Facebook公开的详细信息看,DEC能区分两类假账户。一类是错误分类的账号,这些账号的个人资料被包装成了商业信息页面。要处理这类假账号,相对简单,只要替换个人资料信息就可以。第二类是违法账号,这些账号涉及欺诈、垃圾邮件和违反平台服务条款等行为。对于这类账号处理起来更加棘手,平台需要尽快删除,又不能全部删除相关账号,否则可能会误删真实账号。

那么,整套系统是如何做到的?

DEC的主要方式是通过分析用户的连接模式来区分真假用户。这些模式被称为“深层特征”,其中包括用户朋友的平均年龄或性别分布。Facebook使用了20000种深层特征来刻画用户画像,通过这些深层特征,系统会了解每个用户的行为,也让攻击者难以改变策略来躲避侦查。

深层特征的提取,首先使用的是大量低精度机器生成的标签。这些标签由混合规则和其他机器学习模型生成,可以用来判断用户是真还是假。接着,将这些标签用来训练神经网络,再加上一小批高精度的手工标记数据对整个模型进行微调,这部分数据是由世界各地了解本地文化的人手工生成的。

最终系统可以识别出四种类型的虚假账号:不能代表个人的非法帐户,欺诈者已经接管的真实账户,重复发送创收垃圾邮件的账户,以及操纵账号泄露个人信息的账户。

2019年,Facebook每个季度平均删除20亿个伪造账号。自从使用DEC以来,Facebook称,平台上假账户的数量保持在每月活跃用户的5%左右。但即便是这样,情况也不乐观,在每月有25亿活跃用户的情况下,整个平台仍有1.25亿个伪造帐户。

随着2020年美国总统大选临近,Facebook此时发布DEC系统的详细信息,似乎有些巧合。此前,Facebook曾被指责放纵第三方,泄露用户数据操控选举。“这只是发现一般的违法行为, Facebook并不专门针对任何选举主题。” Facebook社区诚信团队工程经理Daniel Bernhardt在接受媒体采访时称。