AI 繁荣的背面,硅谷巨头正在“侵吞”你的数据;超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

时间:2024-09-23 编辑: 浏览:(390)

文章来源:有新Newin

图片来源:由无界AI生成

近日,外媒报道了 OpenAI 在开发最新模型遇到困难,研究人员通过 Whisper 语音模型转录了超 100 万小时的 Youtube 视频来训练 GPT-4 模型。

据悉,一些 OpenAI 员工讨论此举可能违反 YouTube 的规则,因为 Google 旗下的 YouTube 禁止将其视频用于“独立”于 Youtube 平台的第三方 App。尽管存在这种担忧,OpenAI 团队最终转录了超过 100 万小时的 YouTube 视频,而这项工作包括了 OpenAI 总裁 Greg Brockman 的直接参与,他亲自帮助收集了这些视频。

此外,OpenAI 在 2021 年就已经耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物,并在那时就已经用数据训练了模型,这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

调查显示,为了获取这些数据,包括 OpenAI、Google 以及 Meta 在内的科技公司纷纷走捷径,无视公司政策,并讨论违反法律。例如,Meta 公司的经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以获取长篇作品的可能性,他们还决定从互联网上收集受版权保护的数据,即使这意味着面临诉讼风险。

YouTube 于上周四表示,如果 OpenAI 在未经许可的情况下使用其视频来开发人工智能视频生成器 Sora,将违反 YouTube 的规则。YouTube CEO Neal Mohan 在接受彭博社采访时表示,Google 可能已经使用 YouTube 数据来训练其旗舰对话 AI 模型 Gemini,以符合其与内容创作者签订的许可合同,而 OpenAI CTO Mira Murati 3 月在接受采访时表示她不知道 Sora 是否接受过 YouTube 视频训练。

理论物理学家 Jared Kaplan 在 2020 年发表的一篇具有开创性的论文强调了大量数据对训练 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用两个不同的 AI 模型合作生成更有用、更可靠的合成数据,以克服数据短缺的挑战。

OpenAI 发言人 Lindsay Held 在一封电子邮件中表示,OpenAI 为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力,OpenAI 使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。

Meta 同样也遇到了训练数据可用性限制,其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。Meta 在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后,考虑采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。在剑桥分析丑闻发生后,Meta 做出了以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

从互联网上公开抓取大量数据来训练 AI 模型的做法仍然引发了一波版权诉讼和监管压力,同时促使一些媒体网站通过添加代码以阻止抓取。反过来,科技公司也在通过一系列数据交易来避免法律以及道德的影响。例如,通过与内容所有者的交易以及为满足需求而出现的数据经纪人行业的兴起来保障数据供应链。

在 ChatGPT 上线后的几个月内,包括 Meta、Google、Amazon 以及 Apple 在内的科技巨头都与股票图片提供商 Shutterstock 达成了协议,使用其图库中的数亿张图片、视频和音乐文件进行训练。

据悉,与这些大型科技公司的交易最初范围在 2500~5000 万美元之间。Shutterstock CFO Jarrod Yahes 表示,小型科技公司也紧随其后。

Shutterstock 的竞争对手 Freepik 也已经与两家大型科技公司达成了协议,以 2~4 美分每张图片的价格授权其 2 亿张图片档案的大部分,而 CEO Joaquin Cuenca Abela 表示,还有五笔类似的交易在进行中。

OpenAI 也已经与至少四家新闻组织签订了许可协议,包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。

除此之外,还有 Photobucket 这样曾在 2000 年初达到高峰 7000 万用户,而至今却不到 200 万用户的托管平台,由于生成式 AI 到来,而获得新的机会。

Photobucket CEO 目前正在与多家海外科技公司进行谈判,通过授权 Photobucket 130 亿张照片和视频用于训练生成式 AI 模型,这些模型可以响应文本提示产生新内容,每张照片 0.5~1 美元,每个视频超过 1 美元的费率,价格根据买家和所求的图像类型而有很大差异。

目前,这个领域仍然是一个灰色市场,涉及从聊天日志到早已被遗忘的个人照片,以及如今衰落的社交媒体应用,硅谷的科技巨头们正在悄悄购买这些“Loggin In”登陆框背后的隐秘数据。

Reference:

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq

最新 更多 >
  • 1 $ZOOM币去哪里买

    ZOOM币是一种数字货币,它基于区块链技术,并具有匿名性和去中心化的特点。与传统货币不同,ZOOM币不受任何中央机构的控制,并且可以通过网络进行交易和转账。近年来,随着加密货币市场的崛起,越来越多的人开始关注和投资ZOOM币。欧易交易所是一家著名的加密货币交易平台,提供了丰富的数字资产交易服务。作为全球领先的交易所之一,欧易交易所支持多种数字货币的交易,包括ZOOM币。用户可以在欧易交易所上创建账

  • 2 $DOJO币怎么出售

    DOJO币——数字货币市场的新秀DOJO币是一种新兴的数字货币,其背后采用了以太坊的区块链技术,并且专注于为用户提供安全、高效、去中心化的交易平台。DOJO币在数字货币市场中备受关注,其独特的特性和潜力吸引了众多投资者的眼球。目前,DOJO币正在逐渐成为数字货币市场中备受追捧的投资选择之一。欧易交易所——稳定可靠的交易平台欧易交易所是一家知名的数字货币交易所,为用户提供安全、便捷的交易服务。欧易交

  • 3 FCON币历史价格走势怎么样?

    FCON币历史价格走势怎么样? FCON币是一个相对较新的数字货币。它的全称是 Fantastic Coin,意为奇妙的币种。随着人们对数字货币的兴趣与认知度的提高,FCON币的市场价值也开始呈现出不断上涨的趋势。下面,我们就来看看FCON币的历史价格走势吧! 2018年,FCON币开始进入了数字货币市场。这个时期由于市场需求较小,FCON币价格一直在徘徊。直至2019年初,随着数字货币市场的兴

  • 4 $FUR币交易所有哪些

    本文将对$FUR币进行介绍,并分析其在三个著名交易所的表现。$FUR币是一种虚拟货币,它使用区块链技术进行交易,并以其特殊的功能和潜力而备受关注。首先,我们来了解一下欧易交易所。欧易交易所是全球领先的数字资产交易平台之一。该平台提供强大的交易工具和高度安全的交易环境,让用户可以方便地进行$FUR币的交易。欧易交易所的独特之处在于其严格的监管机制和交易深度,以及提供的多种加密货币交易选项。其次,我们

  • 5 FRONK币的创始人是谁

    FRONK币的创始人是谁?当今的数字货币市场上,已经有数百个不同的加密货币,其中FRONK是其中之一。但是你知道吗?没错,FRONK币的创始人是一位年轻有为的比特币爱好者 Alexander Wong。Alexander WongAlexander Wong 出生于1992年, 是一名来自新加坡的数字货币爱好者。他在2014年开始涉足加密货币市场,并对比特币产生了浓厚的兴趣。 经过几年努力,他累并

  • 6 FIRA币最高的时候是多少钱?

    FIRA币最高的时候是多少钱?对于加密货币市场的玩家而言,掌握市场趋势和未来走势是至关重要的。其中,了解一种加密货币或是代币的历史价格变动和未来可能的价格波动,尤为有助于投资者做出明智的决策。今天,我们来探讨一下 FIRA 币最高的时候是多少钱。FIRA 币是一种由 Fractal Blockchain 社区推出的去中心化加密货币,用于智能合约和数据存储等用途。FIRA 币于 2021 年 5 月

  • 7 $AI币哪个交易所可以买到

    AI币(AI Coin)是一种基于人工智能技术的加密数字货币。它通过应用人工智能算法和区块链技术,旨在打造一个智能、安全、高效的数字货币生态系统。这种全新的数字货币带来了许多创新和发展机遇,因而备受投资者的关注。对于那些想要购买AI币的投资者来说,很多人会问:哪个交易所可以买到AI币呢?在这里,我想跟大家分享一些著名的交易所:欧易交易所、币安交易所和火必交易所。1. 欧易交易所欧易交易所是全球知名

  • 8 FOLD币历史价格走势怎么样?

    FOLD币历史价格走势怎么样?如果你对数字货币感兴趣,相信你早已经听过这个名字。FOLD币是一种区块链数字资产,一直以来备受市场追捧。下面我们来看一下FOLD币的历史价格走势。2019年FOLD币价格走势在2019年,FOLD币的价格徘徊于0.1美元左右,一直到5月份才有所变化。在5月份,FOLD币价格急剧飙升,最高涨幅高达475%。这也是FOLD币历史上最大的一波涨幅。但是这个上涨周期并未持续很

  • 9 $NOOT币怎么交易

    NOOT币是一种虚拟货币,它的名字源自于英文单词“NOOT”,代表了创始人对于创造一种简单易用的数字货币的愿望。NOOT币使用了先进的区块链技术,具有去中心化、匿名性、安全性和高效性等特点。目前,NOOT币在市场上有许多交易所可以进行交易。下面将介绍三个著名的交易所:1. 欧易交易所欧易交易所是全球最大的数字货币交易所之一,成立于2013年。它拥有丰富的数字货币交易品种,在全球范围内享有良好的声誉

  • 10 ELF币的创始人是谁

    ELF币是一种新兴的数字货币,拥有强大的技术支持和先进的区块链技术,受到了世界范围内的投资者的关注和追捧。ELF币的创始人是谁?ELF币的创始人是中国著名程序员赵雪峰。他曾在IBM的区块链和大数据方面进行研究和实践,并在2017年创立了Aelf区块链,推出了ELF币这一数字货币。赵雪峰于2000年毕业于清华大学,在程序员领域中拥有广泛的经验,曾在知名的Tencent、Huawei、Qihoo等公司