苹果等科技企业被曝违规使用YouTube内容训练AI模型
作者: 文少
责任编辑: 刘沙
来源: 电脑商情在线
时间: 2024-07-18 10:41
近日,外媒报道揭露了一些大型科技公司在训练人工智能(AI)模型时涉嫌违规使用YouTube内容。包括苹果、英伟达、Salesforce和Anthropic在内的企业,它们被指利用未经授权的数据集进行AI模型训练。
据报道,这些公司使用了名为“YouTube Subtitles(YouTube字幕)”的数据集,该数据集包含从YouTube上抓取的大量视频字幕文本,大小为5.7GB,包含4.89亿个单词,涵盖了超过4.8万个频道中的17.35万个视频。
这个争议数据集的创作者是非营利性组织EleutherAI。EleutherAI的目标是降低AI开发的门槛,通过训练和发布模型,让公众能够接触到尖端的AI技术。EleutherAI曾发布名为“Pile”的数据汇编,其中大部分数据集对公众开放,包括YouTube Subtitles。
苹果公司在4月发布端侧小模型OpenELM模型前,使用了Pile进行训练。然而,苹果并未直接下载这些数据,因此从技术层面来说,是EleutherAI违反了YouTube的使用条款。
AI初创公司Anthropic的发言人证实,Pile数据集已被用于训练公司的生成式AI助手Claude。Anthropic表示,YouTube的相关条款仅涉及“直接使用其平台”,并建议与Pile的原作者讨论任何违反YouTube服务条款的行为。截至目前,苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。
此次事件影响了许多知名创作者,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型新闻出版商。
科技博主Marques Brownlee在社交媒体上表示,苹果从其他公司获取了他们AI所需的数据,其中一家从YouTube视频中抓取了大量数据/转录文本,包括他自己的多个视频。尽管苹果没有直接抓取数据,但这引发了关于AI训练背后的数据问题的关注。
今年年初,YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌回应称这种行为没有违反平台与创作者的协议。3月,OpenAI首席技术官米拉·穆拉蒂在接受采访时对文生视频模型Sora的训练数据来源含糊其词。4月,YouTube首席执行官尼尔·莫汉表示,没有直接证据证明OpenAI使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。
目前,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。这一事件再次引发了公众对AI训练数据来源和使用规范的广泛讨论。
