为AI训练提供合法数据,谷歌联合哈佛大学发布上百万公域书数据集
作者: 文少
责任编辑: 刘沙
来源: 电脑商情在线
时间: 2024-12-13 13:46
根据美国科技博客TechCrunch报道,哈佛大学与谷歌将共同发布一个包含100万本公共领域书籍的数据集,旨在为人工智能(AI)训练提供合法且丰富的数据资源。
这一数据集汇集了多种类型、语言和作者的作品,包括诸如狄更斯、但丁和莎士比亚等经典作家的著作,因为这些作品的版权已经过期,进入了公共领域。该项目源自谷歌的长期项目谷歌图书(Google Books)。
今年3月,哈佛大学就透露了“机构数据计划(IDI)”,旨在为AI研究提供“合法数据的可信通道”。该计划得到了微软和OpenAI的资金支持。
IDI的执行董事格雷格·莱佩特(Greg Leppert)表示,该数据集的目标是通过提供这一宝贵的数据资源,帮助各类机构和AI初创公司训练大模型,以促进它们在AI领域的研究和发展。
目前新数据集的具体公开时间和发布方式尚未公布。
