遥遥领先的OpenAI慢下来了

时间:2024-09-20 编辑: 浏览:(536)

“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”

一位AI大模型从业者告诉虎嗅,业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。

北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。

虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。

OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:

“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在ChatGPT中免费提供了世界上最好的模型,没有广告或类似的东西。

当我们创办OpenAI时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”

“如果我们必须等待5秒钟才能得到‘每个’回复,用户体验就会一落千丈。即使合成音频本身听起来很真实,它也会破坏沉浸感,让人感觉毫无生气。”

在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:

几乎所有的语音AI都会经历三个阶段:

1.语音识别或“ASR”:音频->文本1,例如Whisper;

2.计划下一步要说什么的LLM:text1 -> text2;

3.语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。

经历3个阶段会导致巨大的延迟。

GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。

GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:

极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

可以实时识别和理解人类的表情,文字,以及数学公式。

交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

所有ChatGPT用户均可免费使用(有使用上限)。

速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

“这些局限性的突破都是创新。”

有业内专家认为,GPT-4o的多模态能力只是“看起来”很好,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。

这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。

Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。

其中包括:

人物识别:Claude不能用于在图像中识别(即姓名)人物,并将拒绝这样做。

准确性:Claude在解释200像素以下的低质量、旋转或非常小的图像时,可能会产生幻觉或犯错误。

空间推理:克劳德的空间推理能力有限。它可能很难完成需要精确定位或布局的任务,例如读取模拟钟面或描述棋子的确切位置。

计数:Claude可以给出图像中物体的近似计数,但可能并不总是精确准确的,特别是对于大量小物体。

AI生成的图像:Claude不知道图像是否是人工智能生成的,如果被问到,可能不正确。不要依赖它来检测假图像或合成图像。

不适当的内容:Claude不会处理违反我们可接受使用政策的不适当或露骨的图像。

医疗保健应用:虽然Claude可以分析一般医学图像,但它不是为解释CT或MRI等复杂诊断扫描而设计的。Claude的输出不应被视为专业医疗建议或诊断的替代品。

在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。

此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。

GPT-4o跑分

虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。

此外,发布会后OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。

而这些能力中,照片转漫画风格、会议记录等,也都是一些看起来很普通的文生图或者是AI大模型功能。

“我注册5个免费的ChatGPT账号,是不是就不需要每月花20美元订阅ChatGPT Plus呢?”

OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。

GPT-4o对所有人免费,首先挑战的似乎是OpenAI自己的商业模型。

第三方市场分析平台Sensor Tower公布的数据显示,过去一个月中,ChatGPT在全球App Store中的下载量为700万,订阅收入1200万美元;全球Google Play市场的下载量为9000万,订阅收入300万美元。

目前,ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断,ChatGPT Plus过去一个月中,通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到2亿美元,再翻几倍也很难撑起OpenAI近千亿的估值。

由此来看,OpenAI在个人用户充值方面,其实并不需要考虑太多。

更何况GPT-4o主打体验好,如果你跟AI聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?

“最初的ChatGPT暗示了语言界面的可能性;这个新事物给人的感觉有本质上的不同。它快速、智能、有趣、自然且有帮助。”

Sam Altman的最新博客中提到了“语言界面的可能性”,这也正是GPT-4o接下来可能要做的:挑战所有GUI(图形交互界面),以及想要在LUI(语音交互界面)上发力的人。

结合近期外媒透出的OpenAI与苹果合作的消息,可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。

不管是哪种语音助手或是AI大模型,对于AIPC、AI手机来说核心价值都是优化体验,而GPT-4o一下把体验优化到了极致。

GPT-4o很可能会卷到所有已知的App,甚至是SaaS行业。过去一年多时间里,市场上所有已经开发和正在开发的AI Agent都会面临威胁。

某位资源聚合类app产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你ChatGPT优化了,那相当于我的App没价值了。”

试想,如果订外卖的App,UI变成了一句话“给我订餐”,那打开美团还是打开饿了么,对于用户来说就一样了。

厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。

从目前的形式来看,其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。

产品要对标OpenAI,可能只有通过做更“便宜”的模型了。

“最近忙死了,没顾上关注他们。”

一位工业AI大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注OpenAI这种发布。

OpenAI发布前,虎嗅也询问了多位来自各行各业的国内AI从业者,他们对OpenAI最新发布的预测与看法都很一致:非常期待,但与我无关。

一位从业者表示,从国内目前的进度来看,要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么,最多也就是看看最新的技术方向。

目前国内公司在AI大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。

在工程方面,近期蹿红的Deepseek就正在国内大模型行业中掀起Token的价格战。在垂直模型方面,多位业内人士告诉虎嗅,短期内小模型和垂直模型的研发,基本都不会受到OpenAI的裹挟。

“有时候OpenAI的技术方向也不是很值得借鉴。”一位模型专家对虎嗅表示,Sora就是个很好的例子,2024年2月OpenAI发布了视频模型Sora,实现了60秒的视频稳定输出。虽然看起来效果很好,但后续的实践几乎没有,落地速度也非常慢。

在Sora之前,国内很多在文生视频领域发力的公司和机构已经实现了15秒稳定视频生成,而Sora出来以后,一些公司的研发、融资、产品节奏都被打乱了,甚至使整个文生视频行业的发展演变成了一场“技术的大跃进”。

所幸,这次GPT-4o与Sora大有不同。OpenAI CTO Muri Murati表示,在接下来的几周内,我们将继续我们的迭代部署,为您提供所有功能。

发布会结束不久,GPT-4o就已经可以上线试用了。

最新 更多 >
  • 1 KING币历史价格走势怎么样?

    随着数字货币市场的不断发展壮大,新的币种层出不穷。其中,KING币是一种备受关注的数字货币。那么,KING币历史价格走势怎样呢?接下来,我们详细了解一下。2018年10月至2019年1月2018年10月,KING币于FAU交易所上线。刚开始时,KING币的价格为0.08美元,这个价格并未受到太多的关注。然而,在11月份,KING币开始火爆起来,在1个月内价格在FAU交易所直线上涨到0.43美元。紧

  • 2 LOVELY币有希望吗

    LOVELY币是近期火爆的数字货币之一,备受投资者关注。那么,LOVELY币有希望吗?让我们来一探究竟。首先,LOVELY币是一种有着独特定位的数字货币。与其他币种不同的是,LOVELY币的目标受众是情侣和夫妻。它旨在为情侣提供一个特殊的加密货币体验,以增强彼此之间的亲密关系。这种独特的定位为LOVELY币赋予了巨大的潜力。其次,LOVELY币的市场潜力不可小觑。据统计,全球范围内有数以亿计的情侣

  • 3 ATRI币用什么app买

    ATRI币是一种加密货币,它是基于区块链技术的数字资产。ATRI币的目标是提供一种安全、高效和去中心化的交易方式,以满足全球用户的交易需求。它具有匿名性、无国界性和低交易成本等特点,因此在数字货币市场中受到了广泛的关注和认可。在购买ATRI币之前,我们需要通过交易所来完成交易。交易所是一个类似股市的平台,允许用户以法定货币或其他数字货币交换和交易ATRI币。以下是三个著名的交易所,它们可以提供AT

  • 4 LUCA币有风险吗

    近年来,加密货币市场蓬勃发展,众多新币不断涌现,其中LUCA币备受瞩目。然而,对于投资者而言,LUCA币是否存在风险是一个重要的问题。本文将就LUCA币的风险进行探讨。首先,LUCA币面临的风险之一是市场风险。加密货币市场异常波动,价格可能会因为各种因素出现剧烈波动,导致投资者无法预测市场行情。对于LUCA币而言,它并没有像比特币或以太坊那样得到广泛认可和应用,因此其价格容易受到市场热度和投资者兴

  • 5 MATATA币有希望吗

    近年来,随着区块链技术的兴起,加密货币成为了人们热议的话题之一。在众多的数字货币中,有一种币种备受关注,它就是MATATA币。对于很多投资者来说,他们有着一个重要的问题:MATATA币是否有希望成为未来的一个热门数字货币呢?接下来,我们一起来探讨一下。首先,我们需要了解MATATA币的背景和特点。MATATA币是一个基于区块链技术的去中心化加密货币,其目标是成为一种能够在全球范围内使用的数字化支付

  • 6 KCT币历史价格走势怎么样?

    KCT币历史价格走势怎么样? KCT币,全称为Kcash Token,是由Kcash团队发行的数字货币。它可以被用于Kcash的生态系统中,包括支付、投资、消费等多方面。在近几年里,KCT币的价格也经历了很多波动。 2017年KCT币的价格走势 在2017年初,KCT币的价格不高,大约是每个币都值不到一元。但由于区块链行业的持续升温,KCT币在今年5月份开始涨势迅猛。截至7月份,KCT币的价

  • 7 MARA币值多少钱一枚

    近年来,加密货币市场经历了蓬勃发展,其中MARA币成为了备受关注的数字货币之一。作为一种全球性的加密货币,MARA币的价值在不断波动,吸引了很多投资者的目光。那么,MARA币值多少钱一枚呢?让我们来一探究竟。MARA币的价值是由市场供求关系决定的,随着投资者对该币种的兴趣增加或减少,其价格也会相应波动。目前,MARA币的价格大致在10-20人民币之间,但值得注意的是,这个价格不是固定的,可能会随时

  • 8 LUC币有风险吗

    虚拟货币(Cryptocurrency)近年来成为了金融市场中备受瞩目的一个领域,其中涌现了众多的币种。作为其中的一员,LUC币近来也备受关注。然而,尽管LUC币在市场中引起了轰动,但随之而来的风险也不容忽视。首先,作为一种虚拟货币,LUC币的价格波动较大,波动性风险不可忽视。与传统的货币不同,虚拟货币的价格往往受到多种因素的影响,如市场供需关系、政策法规的变化、投资者情绪等。尤其是对于刚刚出现的

  • 9 LQDR币有风险吗

    随着区块链技术的不断发展,数字货币成为了炙手可热的投资品种之一。在各类数字货币中,LQDR币备受关注。然而,投资是有风险的,LQDR币也不例外。本文将从几个方面分析LQDR币的风险。首先,市场风险是任何投资品种都要面临的,LQDR币也不例外。市场风险主要指的是市场价格的波动性,市场行情的变化可能导致投资者的损失。虽然LQDR币在某些时段可能会带来高额的收益,但由于市场的不确定性,价格也可能快速下跌

  • 10 KAKI币的创始人是谁

    KAKI币的创始人是谁? KAKI币是一种数字货币,它的创始人是一位开创性的人物,他的名字叫做约拿·拜坚斯。在我们了解KAKI币的历史和风格之前,让我们来看看创始人约拿·拜坚斯的背景以及他是如何成为KAKI币的创始人的。 约拿·拜坚斯的背景 约拿·拜坚斯是一位来自加拿大的程序员,他在2008年发表了一篇论文《比特币:一种点对点的网络现金系统》,这篇论文掀起了全球数字货币的革命。比特币的成功和