想象一下,你最喜欢的YouTube视频可以帮助训练苹果和其他大公司的人工智能系统。最近的一份报告显示,顶级公司未经同意就使用YouTube上的内容来训练他们的人工智能。让我们深入了解一下细节。
人工智能公司通常对其训练数据的来源保密。然而,ProofNews的一项调查发现,全球一些最富有的人工智能公司利用数千个YouTube视频的内容来训练他们的人工智能系统。尽管YouTube的政策禁止未经适当许可使用该平台的材料,但这种情况仍然发生了。
报告称,从超过48,000个频道的173,536个YouTube视频中提取的字幕被Anthropic、Nvidia、Apple和Salesforce等知名硅谷公司使用。
该数据集名为“YouTube字幕”,包含可汗学院、麻省理工学院和哈佛大学等教育和在线学习频道的视频记录,以及《华尔街日报》、NPR和BBC等主要媒体的内容。
值得注意的是,《史蒂芬·科尔伯特深夜秀》、《上周今夜秀:约翰·奥利弗》和《吉米·金梅尔秀》等节目也为该数据集做出了贡献。此外,YouTube名人(如MrBeast、MarquesBrownlee、Jacksepticeye和PewDiePie)的素材也被用于训练AI模型。其中一些素材还宣传了“地球平面理论”等阴谋论。
苹果和其他顶级公司秘密使用YouTube内容来训练人工智能
“没有人来找我说‘我们想用这个’,”《大卫·帕克曼秀》主持人大卫·帕克曼说。他的近160个视频被收录在YouTube字幕训练数据集中。
“这是盗窃,”流媒体服务公司Nebula的首席执行官戴夫·威斯库斯(DaveWiskus)表示。Nebula的部分股权由创作者所有,他们的作品被从YouTube上盗用,用于AI训练。威斯库斯强调,未经创作者同意使用创作者的内容是一种不尊重,尤其是工作室可能会使用“生成式AI来尽可能多地取代创作者”。