一线|数据隐私保护下，AI大数据的发展该何去何从？

　　腾讯新闻《一线》作者潘琅

　　2020 年 5 月 25 日，全国人大常委会工作报告在“下一步主要工作安排”中指出，围绕国家安全和社会治理，制定生物安全法、个人信息保护法、数据安全法。消息一出，迅速“登顶”两会热搜榜——人们期盼已久的《个人信息保护法》，终于在经历了从酝酿到问世的 8 年历程后“千呼万唤始出来”。

　　同时这也引申出了一个问题，我们的个人隐私是从什么时候开始了“裸奔”？

　　如若从时间轴上去追溯这个问题的答案，那么似乎当人类从农业社会逐渐迈入城市商业社会，从熟人社区转向陌生人社区的时候，人类被隐私问题所困扰的历史便开始了。特别是在以大数据应用为重要特征的后互联网时代，日渐兴起的大数据、云计算、物联网、人工智能、5G 等新一代信息技术，更使得个人数据信息、乃至生物识别信息无所遁形，哪怕细微到我们在网络上的每一次搜索、听的每一首歌、叫的每一次外卖、去的每个地方、乘坐的每一次交通工具，都可以被企业获取，成为其数据汪洋中的点滴，在深度数据分析后转而商用。

　　这一切正如英国杂志《经济学人》十年前预言的那样，“数据是新时代的石油”。大数据时代，每一个人的隐私都在阳光下“裸奔”，信息一抛头露面，就先被互联网巨头收割。并且伴随着人工智能的不断发展，个人隐私和数据可以被更加便利地公开、搜集、聚合、分析和使用，规模之大超出了想象，以至于至今我们仍无法判断这个过程对人类社会的进程究竟产生了多大的影响。

　　大数据时代，隐私还能保护吗

　　“不积小流，无以成江海”大多数时候，当数据具备了相当规模的量，足够广阔的覆盖面和足够精准的数据源，数据就会有足够的价值。如若从商业角度出发，企业为用户提供便捷、廉价的服务，用户则在享受服务的同时，“顺便”贡献出自己的数据，双方其实是各取所需、两得其所。

　　这样看似乎是一个完美的逻辑。但问题是，大数据时代，公民隐私的数字化加剧了隐私的无形化。“看不见、摸不着”，信息的存储方式、速度、表现形式都发生了翻天覆地的变化，隐私在不经意之间即被侵犯，并且互联网强大的记忆和存储功能让一切在线行为被永久记录。网络空间的可搜索性和永久存储性，有可能加重精神损害和名誉损害的后果。

　　与此同时，我们不得不思考依托 AI 等科技手段收集来的数据，能像传统的商业问卷调查一样，最大程度淡化、保护用户个人信息吗？大数据时代，人们该如何为自己的隐私上一把“安全锁”？如何确定企业搜集信息样本的过程中不会精准定位到个人？

　　《道德经》有云“反者，道之动”。尽管大数据时代的数据安全和隐私泄露问题无处不在，尽管法学与技术仍面临着诸多挑战，我们也不能因噎废食，因为不可否认的是大数据技术其实是人类科学发展的必然成果。于是围绕着这类“鱼和熊掌不可兼得”的问题，很多人展开了各自的探索。根据探索的方向，这些努力大致上可以分为两类：法学的探索与科学的探索。

　　在法学家们看来，当前数据的搜集和使用过程中之所以会出现种种问题，其关键就在于各种相关的法律和规范滞后了，不能适应时代发展的需要。针对这一问题，法学领域几年来一直都在积极推进立法，努力弥补法律和制度上的各项不足和漏洞。2020 年 5 月 25 日，我国全国人大常委会工作报告在“下一步主要工作安排”中明确指出了即将出台《个人隐私保护法》。

　　与法学探索同步的是技术的探索。从技术角度上来看，数据应用中存在的各种问题本质上都是技术的局限问题，一旦技术进步问题就会迎刃而解。到目前为止，技术人员已经沿着这一方向进行了包括安全多方计算、区块链在内的众多新技术的探索尝试。而最近兴起的“联邦学习”技术，就是这些新技术中最令人眼前一亮的一种。

　　联邦学习的崛起，破解数据信任难题

　　毫无疑问，AI 技术是人类最伟大的科学成就之一。人工智能改变了人类社会，但如今 AI 技术在实际应用落地的过程中也面临着两大瓶颈：一方面，多数企业拥有的“小数据”难以聚沙成塔、取长补短；另一方面，对数据隐私与安全的日益重视早已成为世界性趋势。而“联邦学习”作为加密的分布式机器学习范式，可以使得各方在不披露原始数据的情况下达到共建模型的目的，为应对 AI 落地困境提供了更多可能性。

　　2018 年伊始，微众银行首席人工智能官杨强教授就带领人工智能团队推动构建联邦学习生态，并且在 2018 年底向 IEEE 提交联邦学习国际标准获批，目前已经有 30 多家企业参与其中。随着联邦学习理论研究的深入，微众银行在国内、国际大会上联合多家合作伙伴举办联邦学习研讨会，比如国际顶会 IJCAI 和 NeurIPS，国内计算机学会 CCFTF 等，吸引了更多研究者加入；基于联邦学习开源软件 FATE（Federated AI Technology Enabler）的开源社区也渐渐吸纳上百家机构应用和共建。在行业落地方面，微众银行积极推进联邦学习在金融领域更加深入的应用，在风控、反洗钱、智能营销、智慧城市等领域的应用均取得了很好的效果。

　　联邦学习能够充分的利用参与方的数据和计算能力，使多方可以协作构建通用，更健壮的机器学习模型而不需要共享数据，在数据监管越来越严格的大环境下，联邦学习能够解决数据所有权，数据隐私，数据访问权以及异构数据的访问等关键问题，所以自从联邦学习的概念已提出就获得了人工智能行业的追捧，目前已经在很多行业受到一定的应用，比如国防、电信、移动服务、医疗和物联网等。

　　从整个数据产业看，联邦学习可以增加可用数据的总量，能很好的解决现存数据孤岛的问题；对企业自身而言，使用联邦学习能简单、合法且低成本的获取外部有效的数据信息，快速解决某些因数据量或数据维度不足而导致的困扰，而且也不会造成合作企业间数据或商业机密的泄露。

　　联邦学习成了解决数据难题的“金钥匙”。它是解决数据孤岛问题的重要技术，尤其是在当下数字化转型趋势日益明显时，联邦学习可为各行业的智能化升级提供更高效的模型应用，同时也是建设联邦智能生态的重要组成部分。

　　微众银行 AI 团队发布人工智能教科书《联邦学习》打破数据孤岛

　　联邦学习作为新兴的技术范式，能够在数据不出本地的前提下，实现安全数据模型共建与 AI 协作。“数据不出本地”这一特性可以保证数据隐私保护，而 AI 联合建模则可以最大程度挖掘数据价值，也因此，联邦学习技术近两年来市场呼声极高。但随着技术研究不断深入与行业应用范围日益扩大，市场亟需一本专业性及实用性兼备的“重量级专著”，来帮助机构及从业者快速与系统化地了解联邦学习技术及其相关应用。

　　因此，《联邦学习》中文版应运而生，该书由电子工业出版社出版，微众银行首席人工智能官杨强教授及人工智能部刘洋、程勇、康焱、陈天健、于涵等多位人工智能领域顶级专家历时两年，共同撰写而成。该书凝聚了杨强教授团队的多年学术成果和工程经验，是国际首部全面、系统论述联邦学习的中文著作，剖析了了面向数据安全和隐私保护机器学习学术成果和应用案例，数据孤岛和数据保护难题破解之法。一方面对联邦学习的整体构架、技术原理、重要价值进行了系统化介绍，另一方面也全面分享了微众银行在联邦学习领域的深厚积累。

　　我们相信这本书的顺利问世，既标志着由微众银行 AI 团队带领构建的联邦学习生态影响力正进一步扩大，也预示着联邦学习这一技术在走向成熟，未来势必将出现一个全领域合作的联邦生态，建立起安全有效的“数据联盟”，释放数据无限价值，在保护用户个人隐私的同时，实现全社会的智慧变革。正如《联邦学习》中文版的作者之一，联邦学习技术最早的布道者，国际人工智能界领军人物杨强教授说的那样：“联邦学习作为下一代人工智能大规模协作的基础，迎合了技术和社会的需求，将承担起人工智能在发展和应用中的重任。”