首页 › 业界 › 正文

大模型影子图书馆

影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书

风君子业界 2023-11-05 70

感谢网友 Alejandro86、软媒用户1520111 的线索投递！

11 月 5 日消息，影子图书馆“安娜的档案”官方博客当地时间 10 月 4 日宣布，该网站现已经收购一批“独特的”750 余万份、共计 359TB 的电子图书，并表示愿意为一系列大语言模型公司提供独家早期访问权限，以获得高质量的图书 OCR（注：Optical Character Recognition，光学字符识别）和文本提取。

“安娜的档案”在博客中介绍，读秀是由超星数字图书馆创建的大量扫描图书的数据库，大多数是学术图书，通过扫描可以使它们以数字化的形式提供给大学和图书馆。“安娜的档案”表示曾希望批量获取它，并为此分配了多个月的全职工作。

最终，一位“不可思议、了不起、才华横溢”的志愿者宣布已经完成上述所有工作，并为之“付出巨大代价”，并无偿分享了所有藏品。

图源 Pixabay

从总数来看，这个收藏品共有 7543702 个文件，多过另一家“影子图书馆”Library Genesis 的 530 万本非虚构图书。

不过，图书的原作者通常不会喜欢利用“影子图书馆”来训练 AI 大模型的行为。据此前报道，上个月美国就有多名作家向纽约联邦法院提起诉讼，指控 Meta、微软等科技巨头未经许可使用他们的作品来训练 AI 模型。

这一作家团体此前已经提交了拟议集体版权诉讼，文件称 Meta 和微软采用了具有争议的“Books3”数据集来训练他们的大模型，告诉大模型如何回应人类的提示和指令。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

京东苹果 11.11 狂促继续：iPhone 15 Pro Max 立减 800 元

广州张先生买了台新电脑，回来发现是二手的，果断找商家退一赔三