12 月 8 日消息,据 Meta 官方新闻稿,Meta 昨日推出一款名为 Purple Llama 的 AI 检测套件,号称提供了一系列工具,可帮助开发者检测自家 AI 安全性,并“负责任地部署生成式 AI 模型与应用程序”。

获悉,Purple Llama 套件目前提供“CyberSec Eval”评估工具、Llama Guard“输入输出安全分类器”,Meta 声称,之后会有更多的工具加入这一套件。

Meta 介绍称,Purple Llama 套件旨在规范自家 Llama 语言模型,也能够作用于其它友商的 AI 模型,这一套件的名称由来,是基于安全领域的“紫队概念”。

Meta 声称,紫队是“攻击红队和防御蓝队”的结合,而 Purple Llama 套件的作用,就是在评估和缓解 AI 模型的潜在威胁,“兼顾攻击和防御策略”。

Meta 推出 Purple Llama 检测套件,可评估 AI 模型安全水准-风君雪科技博客

▲ 图源 Meta

具体而言,Purple Llama 套件目前能够量化大模型在网络安全风险的指标,评估可能存在的代码漏洞,并为模型的安全性提供见解,此外还能检查并过滤模型的输入和输出内容,防止黑客“越狱”相关模型。

Meta 表示,未来该公司将持续检测 AI 模型的安全性,除了持续完善 Purple Llama 套件外,Meta 还将与微软、AMD、亚马逊、谷歌、英特尔、英伟达等公司合作,计划将 Purple Llama 评估套件整合进行业模型评估基准中。