防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

3 月 31 日消息，无论当下 AI 聊天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与事实不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器（注：原名为 Search-Augmented Factuality Evaluator，简称 SAFE），可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布，点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估，以验证准确性和真实性：将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后，该系统还会检查各个事实与原始问题的相关性。

为评估其性能，研究人员创建了包含约 16000 个事实的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示，在对 100 个有争议的事实进行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

川剧由什么组成

第三方开发者正利用《GTA 5》源代码将游戏移植至安卓/ Linux / Switch 平台

最新文章

雷诺：将在日产与本田合并磋商中“考虑所有选项”

上海市通信管理局通报 29 款侵害用户权益行为 App 及小程序

曝一加Open 2将于明年7月全球发布搭载骁龙8 Elite

雪花马尔斯绿啤酒档次，雪花马尔斯绿啤酒好喝吗

吃鸡如何购买、激活帐号（绝地求生账号购买详经验教程）

芡实怎么煮烂

英特尔控制面板在哪里(win10右键无英特尔显卡设置)

怎么做花卷（手把手教你在家蒸花卷）

「已解答」name是怎么读

css边框阴影发光怎么做(css给图片添加阴影效果)

最新评论

标签

关注我们么么哒！

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

川剧由什么组成

第三方开发者正利用《GTA 5》源代码将游戏移植至安卓/ Linux / Switch 平台

最新文章

雷诺：将在日产与本田合并磋商中“考虑所有选项”

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！