苹果等科技企业被曝违规使用YouTube内容训练AI模型

作者：文少

责任编辑：刘沙

来源：电脑商情在线

时间： 2024-07-18 10:41

　　近日，外媒报道揭露了一些大型科技公司在训练人工智能（AI）模型时涉嫌违规使用YouTube内容。包括苹果、英伟达、Salesforce和Anthropic在内的企业，它们被指利用未经授权的数据集进行AI模型训练。

　　据报道，这些公司使用了名为“YouTube Subtitles（YouTube字幕）”的数据集，该数据集包含从YouTube上抓取的大量视频字幕文本，大小为5.7GB，包含4.89亿个单词，涵盖了超过4.8万个频道中的17.35万个视频。

　　这个争议数据集的创作者是非营利性组织EleutherAI。EleutherAI的目标是降低AI开发的门槛，通过训练和发布模型，让公众能够接触到尖端的AI技术。EleutherAI曾发布名为“Pile”的数据汇编，其中大部分数据集对公众开放，包括YouTube Subtitles。

　　苹果公司在4月发布端侧小模型OpenELM模型前，使用了Pile进行训练。然而，苹果并未直接下载这些数据，因此从技术层面来说，是EleutherAI违反了YouTube的使用条款。

　　AI初创公司Anthropic的发言人证实，Pile数据集已被用于训练公司的生成式AI助手Claude。Anthropic表示，YouTube的相关条款仅涉及“直接使用其平台”，并建议与Pile的原作者讨论任何违反YouTube服务条款的行为。截至目前，苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。

　　此次事件影响了许多知名创作者，以及《纽约时报》、英国广播公司（BBC）和美国ABC News等大型新闻出版商。

　　科技博主Marques Brownlee在社交媒体上表示，苹果从其他公司获取了他们AI所需的数据，其中一家从YouTube视频中抓取了大量数据/转录文本，包括他自己的多个视频。尽管苹果没有直接抓取数据，但这引发了关于AI训练背后的数据问题的关注。

　　今年年初，YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型，谷歌回应称这种行为没有违反平台与创作者的协议。3月，OpenAI首席技术官米拉·穆拉蒂在接受采访时对文生视频模型Sora的训练数据来源含糊其词。4月，YouTube首席执行官尼尔·莫汉表示，没有直接证据证明OpenAI使用了YouTube的视频来完善其文生视频AI工具Sora，如果真的使用了，那就“明显违反”了YouTube平台的使用条款。

　　目前，Pile已从官方下载网站上下架，但仍可通过文件共享服务访问。这一事件再次引发了公众对AI训练数据来源和使用规范的广泛讨论。

苹果等科技企业被曝违规使用YouTube内容训练AI模型

精彩专题

智库专家