Meta 推出 Purple Llama 检测套件，可评估 AI 模型安全水准

12 月 8 日消息，据 Meta 官方新闻稿，Meta 昨日推出一款名为 Purple Llama 的 AI 检测套件，号称提供了一系列工具，可帮助开发者检测自家 AI 安全性，并“负责任地部署生成式 AI 模型与应用程序”。

获悉，Purple Llama 套件目前提供“CyberSec Eval”评估工具、Llama Guard“输入输出安全分类器”，Meta 声称，之后会有更多的工具加入这一套件。

Meta 介绍称，Purple Llama 套件旨在规范自家 Llama 语言模型，也能够作用于其它友商的 AI 模型，这一套件的名称由来，是基于安全领域的“紫队概念”。

Meta 声称，紫队是“攻击红队和防御蓝队”的结合，而 Purple Llama 套件的作用，就是在评估和缓解 AI 模型的潜在威胁，“兼顾攻击和防御策略”。

▲ 图源 Meta

具体而言，Purple Llama 套件目前能够量化大模型在网络安全风险的指标，评估可能存在的代码漏洞，并为模型的安全性提供见解，此外还能检查并过滤模型的输入和输出内容，防止黑客“越狱”相关模型。

Meta 表示，未来该公司将持续检测 AI 模型的安全性，除了持续完善 Purple Llama 套件外，Meta 还将与微软、AMD、亚马逊、谷歌、英特尔、英伟达等公司合作，计划将 Purple Llama 评估套件整合进行业模型评估基准中。