开源训练集 LAION-5B 遭曝内含“儿童性虐待内容”，Stable AI“紧急撇清关系”

风君子业界 2023-12-21 66

12 月 21 日消息，据彭博社报道，斯坦福大学近日针对开源模型训练数据集 LAION-5B 展开研究，发现该数据集中存在 3000 项“可疑的儿童性虐待内容”，之后 LAION 项目维护人员紧急下架了 LAION-5B，并声称已经移除了 1008 项“确凿的相关内容”。

▲ 图源彭博社（下同）

外媒表示，LAION-5B 训练集总共拥有 58.5 亿项图片信息，Stability AI 曾利用 LAION 数据集来训练自家 AI 模型，从而为用户提供“文生图服务”。

不过注意到，Stability AI 迅速向外媒回应，“Stable Diffusion 模型虽然使用 LAION-5B 进行训练，但采用的是‘经过筛选及微调过的’训练集版本，因此‘并不会影响模型输出结果’”。

斯坦福大学声称，从 LAION-5B 事件可以看出业界“应当还有大量数据集存在有相关不当内容”，研究人员呼吁模型训练方应当谨慎甄选“必要的训练数据集”