OpenAI转录了超过一百万小时的YouTube视频来训练GPT-4

科技 2024-04-09 11:08:35 编辑：

本周早些时候，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了公司处理此问题的一些方法。毫不奇怪，它涉及到属于人工智能版权法模糊灰色区域的事情。

故事从OpenAI开始，该公司迫切需要训练数据，据报道开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。据《纽约时报》报道，该公司知道这在法律上存在问题，但相信这是合理使用。《泰晤士报》写道，OpenAI总裁格雷格·布罗克曼(GregBrockman)亲自参与了所使用视频的收集。

OpenAI发言人LindsayHeld在一封电子邮件中告诉TheVerge，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。赫尔德补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

《纽约时报》的文章称，该公司在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。那时，它已经用数据训练了模型，这些数据包括来自Github的计算机代码、国际象棋走棋数据库和来自Quizlet的作业内容。

谷歌发言人MattBryant在一封电子邮件中告诉TheVerge，该公司“看到了有关OpenAI活动的未经证实的报告”，并补充说“我们的robots.txt文件和服务条款都禁止未经授权的抓取或下载YouTube内容”，这与该公司的条款相呼应。使用。YouTube首席执行官尼尔·莫汉(NealMohan)本周就OpenAI使用YouTube训练其Sora视频生成模型的可能性发表了类似的言论。布莱恩特表示，“当我们有明确的法律或技术依据时”，谷歌会采取“技术和法律措施”来防止此类未经授权的使用。

据《纽约时报》消息人士透露，谷歌还从YouTube收集了文字记录。布莱恩特表示，该公司“根据我们与YouTube创作者的协议，在一些YouTube内容上训练了模型”。

《纽约时报》写道，谷歌的法律部门要求该公司的隐私团队调整其政策语言，以扩大其对消费者数据的处理范围，例如谷歌文档等办公工具。据报道，新政策是在7月1日特意发布的，目的是利用独立日假期周末的分散注意力。

Meta同样也遇到了良好训练数据可用性的限制，在《泰晤士报》听到的录音中，其AI团队讨论了在努力追赶OpenAI的过程中未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。在剑桥分析丑闻发生后，该公司做出了以隐私为中心的变革，因此它使用消费者数据的方式显然也受到了限制。

谷歌、OpenAI和更广泛的人工智能训练界正在努力应对模型训练数据快速蒸发的问题，吸收的数据越多，模型就会变得越好。《华尔街日报》本周撰文称，到2028年，公司可能会超越新内容。

《华尔街日报》周一提到的这个问题的可能解决方案包括对模型创建的“合成”数据进行训练，或者所谓的“课程学习”，其中包括以有序的方式向模型提供高质量的数据，希望它们能够使用更少的信息来建立“概念之间更智能的联系”，但这两种方法都尚未得到证实。但这些公司的另一个选择是使用他们能找到的任何东西，无论他们是否获得许可，并且基于去年左右提起的多起诉讼，可以说，这种方式有点令人担忧。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：