苹果等科技企业被曝违规使用YouTube内容训练AI模型

作者: 文少

责任编辑: 刘沙

来源: 电脑商情在线

时间: 2024-07-18 10:41

关键字: 谷歌 苹果 YouTube

  近日,外媒报道揭露了一些大型科技公司在训练人工智能(AI)模型时涉嫌违规使用YouTube内容。包括苹果、英伟达、Salesforce和Anthropic在内的企业,它们被指利用未经授权的数据集进行AI模型训练。

  据报道,这些公司使用了名为“YouTube Subtitles(YouTube字幕)”的数据集,该数据集包含从YouTube上抓取的大量视频字幕文本,大小为5.7GB,包含4.89亿个单词,涵盖了超过4.8万个频道中的17.35万个视频。

  这个争议数据集的创作者是非营利性组织EleutherAI。EleutherAI的目标是降低AI开发的门槛,通过训练和发布模型,让公众能够接触到尖端的AI技术。EleutherAI曾发布名为“Pile”的数据汇编,其中大部分数据集对公众开放,包括YouTube Subtitles。

  苹果公司在4月发布端侧小模型OpenELM模型前,使用了Pile进行训练。然而,苹果并未直接下载这些数据,因此从技术层面来说,是EleutherAI违反了YouTube的使用条款。

  AI初创公司Anthropic的发言人证实,Pile数据集已被用于训练公司的生成式AI助手Claude。Anthropic表示,YouTube的相关条款仅涉及“直接使用其平台”,并建议与Pile的原作者讨论任何违反YouTube服务条款的行为。截至目前,苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。

  此次事件影响了许多知名创作者,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型新闻出版商。

  科技博主Marques Brownlee在社交媒体上表示,苹果从其他公司获取了他们AI所需的数据,其中一家从YouTube视频中抓取了大量数据/转录文本,包括他自己的多个视频。尽管苹果没有直接抓取数据,但这引发了关于AI训练背后的数据问题的关注。

  今年年初,YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌回应称这种行为没有违反平台与创作者的协议。3月,OpenAI首席技术官米拉·穆拉蒂在接受采访时对文生视频模型Sora的训练数据来源含糊其词。4月,YouTube首席执行官尼尔·莫汉表示,没有直接证据证明OpenAI使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。

  目前,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。这一事件再次引发了公众对AI训练数据来源和使用规范的广泛讨论。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255