为AI训练提供合法数据,谷歌联合哈佛大学发布上百万公域书数据集

作者: 文少

责任编辑: 刘沙

来源: 电脑商情在线

时间: 2024-12-13 13:46

关键字: 谷歌 AI 哈佛

  根据美国科技博客TechCrunch报道,哈佛大学与谷歌将共同发布一个包含100万本公共领域书籍的数据集,旨在为人工智能(AI)训练提供合法且丰富的数据资源。

  这一数据集汇集了多种类型、语言和作者的作品,包括诸如狄更斯、但丁和莎士比亚等经典作家的著作,因为这些作品的版权已经过期,进入了公共领域。该项目源自谷歌的长期项目谷歌图书(Google Books)。

  今年3月,哈佛大学就透露了“机构数据计划(IDI)”,旨在为AI研究提供“合法数据的可信通道”。该计划得到了微软和OpenAI的资金支持。

  IDI的执行董事格雷格·莱佩特(Greg Leppert)表示,该数据集的目标是通过提供这一宝贵的数据资源,帮助各类机构和AI初创公司训练大模型,以促进它们在AI领域的研究和发展。

  目前新数据集的具体公开时间和发布方式尚未公布。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

友情链接
地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255