AI 繁荣的背面,硅谷巨头正在“侵吞”你的数据;超 100 万小时油管视频被 OpenAI “拿去”训练 GPT-4

时间:2024-09-19 编辑: 浏览:(204)

文章来源:有新Newin

图片来源:由无界AI生成

近日,外媒报道了 OpenAI 在开发最新模型遇到困难,研究人员通过 Whisper 语音模型转录了超 100 万小时的 Youtube 视频来训练 GPT-4 模型。

据悉,一些 OpenAI 员工讨论此举可能违反 YouTube 的规则,因为 Google 旗下的 YouTube 禁止将其视频用于“独立”于 Youtube 平台的第三方 App。尽管存在这种担忧,OpenAI 团队最终转录了超过 100 万小时的 YouTube 视频,而这项工作包括了 OpenAI 总裁 Greg Brockman 的直接参与,他亲自帮助收集了这些视频。

此外,OpenAI 在 2021 年就已经耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物,并在那时就已经用数据训练了模型,这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

调查显示,为了获取这些数据,包括 OpenAI、Google 以及 Meta 在内的科技公司纷纷走捷径,无视公司政策,并讨论违反法律。例如,Meta 公司的经理、律师和工程师去年讨论了收购 Simon & Schuster 出版社以获取长篇作品的可能性,他们还决定从互联网上收集受版权保护的数据,即使这意味着面临诉讼风险。

YouTube 于上周四表示,如果 OpenAI 在未经许可的情况下使用其视频来开发人工智能视频生成器 Sora,将违反 YouTube 的规则。YouTube CEO Neal Mohan 在接受彭博社采访时表示,Google 可能已经使用 YouTube 数据来训练其旗舰对话 AI 模型 Gemini,以符合其与内容创作者签订的许可合同,而 OpenAI CTO Mira Murati 3 月在接受采访时表示她不知道 Sora 是否接受过 YouTube 视频训练。

理论物理学家 Jared Kaplan 在 2020 年发表的一篇具有开创性的论文强调了大量数据对训练 LLM 性能的重要性。OpenAI 和其他公司正在探索如何使用两个不同的 AI 模型合作生成更有用、更可靠的合成数据,以克服数据短缺的挑战。

OpenAI 发言人 Lindsay Held 在一封电子邮件中表示,OpenAI 为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力,OpenAI 使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。

Meta 同样也遇到了训练数据可用性限制,其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。Meta 在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后,考虑采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。在剑桥分析丑闻发生后,Meta 做出了以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

从互联网上公开抓取大量数据来训练 AI 模型的做法仍然引发了一波版权诉讼和监管压力,同时促使一些媒体网站通过添加代码以阻止抓取。反过来,科技公司也在通过一系列数据交易来避免法律以及道德的影响。例如,通过与内容所有者的交易以及为满足需求而出现的数据经纪人行业的兴起来保障数据供应链。

在 ChatGPT 上线后的几个月内,包括 Meta、Google、Amazon 以及 Apple 在内的科技巨头都与股票图片提供商 Shutterstock 达成了协议,使用其图库中的数亿张图片、视频和音乐文件进行训练。

据悉,与这些大型科技公司的交易最初范围在 2500~5000 万美元之间。Shutterstock CFO Jarrod Yahes 表示,小型科技公司也紧随其后。

Shutterstock 的竞争对手 Freepik 也已经与两家大型科技公司达成了协议,以 2~4 美分每张图片的价格授权其 2 亿张图片档案的大部分,而 CEO Joaquin Cuenca Abela 表示,还有五笔类似的交易在进行中。

OpenAI 也已经与至少四家新闻组织签订了许可协议,包括 The Associated Press 和 Axel Springer 以及 Thomson Reuters。

除此之外,还有 Photobucket 这样曾在 2000 年初达到高峰 7000 万用户,而至今却不到 200 万用户的托管平台,由于生成式 AI 到来,而获得新的机会。

Photobucket CEO 目前正在与多家海外科技公司进行谈判,通过授权 Photobucket 130 亿张照片和视频用于训练生成式 AI 模型,这些模型可以响应文本提示产生新内容,每张照片 0.5~1 美元,每个视频超过 1 美元的费率,价格根据买家和所求的图像类型而有很大差异。

目前,这个领域仍然是一个灰色市场,涉及从聊天日志到早已被遗忘的个人照片,以及如今衰落的社交媒体应用,硅谷的科技巨头们正在悄悄购买这些“Loggin In”登陆框背后的隐秘数据。

Reference:

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.theinformation.com/briefings/youtube-says-openais-use-of-its-videos-would-violate-terms?rc=z9mejq

最新 更多 >
  • 1 Robinhood聘请前Cruise和Lyft高管Jeff Pinner担任首席技术官

    Robinhood已任命Jeff Pinner为其首席技术官。Pinner今天(星期一)宣布,凭借在Cruise和Lyft的职业背景,Pinner将率先努力加快Robinhood的产品开发,优化基础设施,并提升客户体验。 Jeff Pinner的新角色 Pinner在Robinhood的角色将专注于提升公司的工程能力。该公司预计,他的任命将对Robinhood提供金融服务的能力产生重大影响。 Ro

  • 2 为什么Ripple(XRP)价格今天上涨了?

    尽管周末风平浪静,XRP周一以绿色开始。 关键支撑位:0.54美元 关键阻力位:0.68美元 1.价格查询支持 在经历了过山车般的波动之后,XRP的价格终于在54美分得到了很好的支撑,买家似乎再次对这种加密货币感兴趣。如果成功,目前的目标和阻力位为68美分。 TradingView图表 2.买家退货 如果周末买家缺席,他们今天似乎已经回来了,价格从关键支撑位上涨了4%。如果这种购买量持续下去,市

  • 3 Tron的DeFi沙漠:区块链能吸引协议吗?

    Tron是一个领先的区块链平台,正面临其社区对去中心化金融(DeFi)协议集成及其网络整体功能的审查。尽管Tron以其快速交易而闻名,但它在采用DeFi方面遇到了挑战。 在最近X上的一篇文章中,PaperImperium质疑Tron上缺少经典的DeFi协议。他们指出了连接到网络的困难,网络在很大程度上依赖于集中交换而不是分散的解决方案。 作为一种潜在的解决方案,一位评论者建议使用Allbridge

  • 4 投资者Chris Burniske表示,加密货币市场处于“美丽的早期牛市”状态,但有一个陷阱

    风险投资家兼投资者Chris Burniske认为,加密货币市场正在为大规模牛市做准备。 数字资产风险投资公司Placeholder的一位合伙人告诉他在社交媒体平台X上的297500名粉丝,他相信加密货币在本周的市场调整后,由于全球流动性即将增加,正在为大幅上涨做好准备。 然而,投资者警告称,在牛市反弹之前,市场波动可能会持续到9月。 “情绪重置和杠杆率飙升,而大多数优质加密资产的低点明显高于20

  • 5 顶级分析师告诉福布斯Shiba Inu今年仍有潜力飙升610%

    一位行业分析师告诉福布斯,Shiba Inu六倍的投资回报率仍然是2024年的前景。 最近几周,Shiba Inu的价格并不令人印象深刻,因为它正在从最近的崩溃中艰难地度过复苏阶段。Shiba Inu徘徊在0.00001409美元左右,在过去24小时内上涨了2%。 然而,考虑到上周一SHIB暴跌至0.00001087美元,自那以后,模因币飙升了29.62%。虽然Shiba Inu的复苏阶段仍在进行

  • 6 顶级分析师预测XRP反弹至36美元,概述了需要关注的关键水平

    市场分析师Dark Defender对XRP进行了看涨预测,确定了可能为大幅上涨铺平道路的关键价格水平。 根据他的分析,XRP可能处于一系列看涨浪潮的边缘,可能会高达36.76美元。Dark Defender的预测取决于可靠的艾略特波浪理论。 在月度图表中,Dark Defender表明XRP目前处于五波结构的第三波。这第三波,传统上是最强大的,可能会将XRP推到关键的斐波那契扩展水平1.88美元

  • 7 TokenGlade宣布预售$TKG代币:数字金融的新时代

    [新闻稿-美国特拉华州,2024年8月10日] TokenGlade是一个在Stellar区块链上改变数字代币管理的创新平台,很高兴宣布正式启动预售。从今天开始,投资者有机会以特殊的预售价格购买TKG代币,为数字金融的新篇章铺平了道路。 TokenGlade预售的主要亮点: 预售期:2024年8月10日-2024年8月30日代币价格:每TKG代币1 XLM可用代币总数:500万TKG 独家奖金:

  • 8 随着Ripple v SEC的最新进展,XRP ATH是否有可能?(ChatGPT的分析)

    TL;博士 Ripple被罚款1.25亿美元,远低于美国证券交易委员会最初要求的20亿美元,导致XRP价格飙升20%。该代币的未来反弹取决于市场状况和法律发展等因素,比特币的表现可能会影响其进一步上涨。 XRP是否为新的峰值奠定了基础? 本周早些时候,Ripple与美国证券交易委员会(SEC)之间的诉讼见证了一个重大进展,当时法官Analisa Torres裁定该公司必须因违反某些证券法而支付

  • 9 看涨信号:比特币牛市熊市周期指标在6万美元以上再次转为看涨

    比特币牛市熊市周期指标再次转变为看涨信号,此前比特币跌破50000美元引发了短暂的看跌期。在比特币价格跌至2月以来的最低水平后,该指标已经闪烁了三天的红色。 根据CryptoQuant创始人兼首席执行官Ki Young-Ju的说法,以前接近临界点的大多数比特币链上周期性指标现在已经转变为牛市信号。 比特币下一轮牛市的关键是什么? Ki Young-Ju最近在X上发布消息称,只要比特币的价值保持在4

  • 10 OKX交易所合规风暴:清退Tornado Cash相关账户,用户该如何应对?

    撰文:刘红林律师,曼昆律师事务所 8月9日,OKX官方在社交媒体上发布的一则声明引起了轩然大波。OKX表示,任何从Tornado Cash往OKX充值,或从OKX往Tornado Cash提币的行为都会触发账户清退,没有任何例外。这一消息迅速引发了广泛讨论,尤其是在涉及用户隐私和平台合规性的问题上。 在这一背景下,有用户提出了如何应对“投毒攻击”的疑问,即恶意第三方故意通过Tornado Cas