新的克劳德AI Sonnet模型能击败ChatGPT-4o吗?

时间:2024-09-22 编辑: 浏览:(38)

由前OpenAI研究人员创立的领先人工智能研究公司Anthropic昨天宣布推出Claude 3.5 Sonnet,这是Claude AI家族中最新、最先进的模型。这一重大升级紧跟着OpenAI的GPT-4o发布,这是一种原生的多模式大型语言模型(LLM),最近在LMSys聊天机器人领域占据了榜首。

Claude 3.5 Sonnet被定位为一款中档车型,介于Haiku和Opus之间,Haiku是一款专为高效任务设计的小型车型,Opus是一款为Anthropic付费版提供动力的高端车型,每月售价20美元。目前,Haiku和Opus只提供3.0版本,这使Sonnet 3.5成为他们在功能、知识和效率方面的最佳模型。

Anthropic声称其新模型在几乎所有合成基准中都优于GPT-4o,尤其是在使用多镜头提示技术时——本质上提供了不止一个例子。

这些综合基准衡量模型在不同领域的性能。通过设置标准数量的条件和测试,可以获得定性变量的定量值。换言之,这些基准并没有说哪个模型看起来或更擅长一项任务,而是以可衡量的方式说明了一个模型有多好。

就性能而言,Anthropic表示,Claude 3.5 Sonnet的运行速度是之前顶级车型Claude 3 Opus的两倍,提供了更多的动力,而成本仅为其五分之一。这使得它成为复杂任务的理想选择,例如上下文敏感的客户支持和需要与模型进行大量来回交互的专业任务。

它的创作者表示,与前代相比,它在理解细微差别、幽默和复杂指令方面也有了显著的进步。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic说,它特别擅长解读图表和从不完美的图像中转录文本。现在,该公司的顶级模型可以理解视觉提示的上下文,而不仅仅是描述事物。这使其在多模式能力方面与ChatGPT和Reka直接竞争。

例如,我们给克劳德提供了一张地图,并询问我们在那个地方可以做什么。它发现这张地图是芝加哥的,并给了我们一些相关的建议,比如使用公共交通工具而不是出租车,或者参观威克公园、林肯公园和海德公园。

该模型还提供了高级编码功能。根据Anthropic提供的相关工具,它可以独立编写、编辑和执行代码,并进行复杂的推理和故障排除。此功能可有效地简化开发人员的工作流程并加快编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这允许用户实时查看、编辑和构建Claude生成的内容。它将人工智能创建的输出直接集成到项目和工作流程中,使其在与代码交互时特别有用,并为Claude提供了比ChatGPT或Reka等传统聊天机器人更完善的用户界面。

Anthropic预计将在今年晚些时候发布Haiku和Opus版本的Claude 3.5。如果Sonnet能够挑战GPT-4o,Opus可能会成为未来GPT迭代的有力竞争对手,例如假设的GPT-5。

Claude 3.5 Sonnet vs.ChatGPT-4o

总的来说,这两种型号都展示了令人印象深刻的功能,但在各种任务中相互竞争时,它们的表现如何?让我们来探究一下他们在编码、创意写作和专业任务方面的表现。

易用性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和扩展交互方面存在一些限制。与付费版本相比,免费版本的Claude为用户提供了更受限制的体验,具有更小的令牌上下文和更少的可用提示。如果用户分析长文档或使用代码,则尤其如此。

ChatGPT的免费版本为用户提供了更慷慨的代币和提示分配,允许更长、更复杂的交互,而无需付费升级。OpenAI也提供“Plus”订阅,但在被要求升级之前,需要更长的时间才能达到限制。

获胜者:ChatGPT赢得本轮比赛。它的免费版本提供了更大的容量和可访问性,对于那些不愿意或无法支付高级人工智能服务费用的人来说,它更方便用户。克劳德的方法似乎是为了鼓励用户升级到付费级别,这可能会对一些用户造成障碍。

编码功能

我们通过让两个模型创建一个游戏来测试克劳德的编码能力。然而,我们没有要求复制可能成为训练数据集一部分的已知游戏,而是提出了一个测量两名玩家之间反应时间的游戏的想法。

提示:我想创建一个游戏。两个玩家在同一台电脑上玩游戏。一个控制着字母L,另一个控制字母A。我们有一个用线除以二的域。每个玩家控制50%的场地。控制A的玩家控制左半部分,控制L的玩家控制右半部分。

在一个随机的时刻,直线将向左或向右移动。正在失去阵地的玩家必须尽快按下按钮,以防止队伍再次移动。完成后,队伍将保持原位,玩家将不得不等待,直到队伍在随机时刻开始移动到随机位置。

最终控制0%屏幕的玩家输了,游戏结束。用Python或HTML5编写。你认为效果更好的那个。

克劳德3.5十四行诗表现出色。它不仅按照规定提供了游戏,而且还主动将基本但功能性的图形界面与视觉提示结合起来,使游戏更容易理解。

克劳德迅速完成了这项任务,在不到10秒内展示了增强的编码能力。

ChatGPT还按照给定的规范创建了游戏。然而,生成任务需要更长的时间(近45秒),并且没有包括文本线索等额外功能,使游戏更容易理解。

此外,游戏的节奏要慢得多,这违背了反应游戏的目的——“游戏结束”弹出窗口并没有说明谁赢了。

获胜者:克劳德3.5十四行诗获胜。它能够快速生成更全面、功能更丰富的代码,包括图形界面等未经提示的附加功能,这表明它具有卓越的编码能力。

此外,事实证明,它的“工件”功能非常方便,可以在聊天机器人的界面中测试代码,而无需将代码复制并粘贴到外部工具中——这就是ChatGPT的工作原理。

创造性写作

我们要求两位模特根据一个特定的想法创作一个虚构的故事。我们想测试这些模特的创造力,他们的故事有多丰富和引人入胜,以及他们对创意作家的整体表现有多好。

促使

写一篇关于何塞·兰兹的短篇小说,他是一位2150年的时间旅行者,穿越回1000年。确保你的叙述富含生动的描述性语言,无论你选择什么,何塞的文化背景和身体特征都被真实地描绘出来。

你故事的核心应该围绕着时间旅行悖论,以及试图解决或改变过去的问题以改变当前时间线的徒劳。强调具有讽刺意味的是,未来之所以如此存在,正是因为过去就是它。尽管何塞有意影响1000年的事件,但他所采取的行动注定会发生,因为这些行动是2150年存在的必要条件。这个悖论的实现是故事中的一个关键时刻。

克劳德3.5十四行诗的叙事展现了语言的自然流动和引人入胜的结构。人工智能巧妙地融入了时间旅行悖论等复杂概念,创造了一个丰富而微妙的故事,并承担了创造性的风险。

在它的版本中,主人公试图阻止一个数学概念的发展,这个概念在他那个时代导致了灾难性的后果。在与研究者的社会融合并似乎阻止了这一概念的发展后,他再次发现自己实际上是他所创造的时间悖论的关键部分,甚至在古代著作中找到了自己的参考。

ChatGPT生成了一个故事,该故事遵循了给定的指导方针,但遵循了更可预测的路径。虽然它很有能力,但它的叙事缺乏克劳德故事所展现的深度和创造性。

GPT-4o制作了一个直截了当的故事,主人公试图通过与过去的查曼分享先进的教义来防止能源危机。然而,回到他的时间线,他发现历史在重复,什么都没有改变。

获奖者:克劳德在创意写作方面获胜。它能够产生更具想象力、细致入微和结构良好的叙事,这使它与众不同,成为需要创造力的任务的绝佳选择。

例如,更容易想象融入社会会如何影响一群研究人员并阻止他们发现一些东西。相反,与chaman分享先进知识对防止能源危机来说意义不大。

总结与分析

当收到一份42页的国际货币基金组织报告时。ChatGPT毫无问题地接受了整个文档。克劳德,另一方面,抛出了一个错误,说PDF太长了。我们把它剪到了31页,这足以在Pro版本中被接受。(免费版本只能分析大约25页。)

撇开局限性不谈,《克劳德3.5十四行诗》对缩短的文档进行了有力的分析,准确地提取了关键点和逐字逐句的引用,而没有出现幻觉——这已经是对《克劳德3》的重大改进,后者容易编造信息。然而,它的引用是模糊的,没有ChatGPT选择的引用那么相关。

ChatGPT在处理整个42页文档时没有截断,给人留下了深刻印象。它提供了更全面的细分,提供了丰富的相关信息。

它使用要点来强调关键要素,然后提供每一节的摘要,这比克劳德提供的方法更有用,克劳德提供了一个没有结构和缺少报告关键要素的摘要。

ChatGPT还展示了一种战略方法,侧重于报告的总结和结论,以有效地提炼关键点。这是在深入分析之前对广泛的研究有一个大致了解的可靠方法。

获奖者:ChatGPT在总结和分析方面处于领先地位。它能够完整处理较长的文档,再加上其全面而战略性的总结方法,使其更适合于学术研究和专业分析任务。

其他功能

Claude 3.5 Sonnet引入了“Artifacts”,这是一项允许用户实时查看、编辑和构建人工智能生成的内容的功能。这种将人工智能输出直接集成到项目和工作流程中的方式增强了用户交互,尤其是与代码的交互。

ChatGPT Plus提供了为特定任务训练自定义GPT的能力,这是Claude目前无法提供的功能。此自定义选项在专业和学术环境中提供了更多的通用性。它还集成了Dall ee 3图像生成器,这对于使用自然语言生成图像非常有用。

获胜者:ChatGPT在附加功能方面获胜。虽然Claude的“工件”功能提供了独特的实时交互功能,但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的特定需求,但GPT可以帮助各种各样的用户。ChatGPT还可以创建图像,这是相对于Claude的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细致的语言使用和高效编码的任务中大放异彩。它掌握和执行复杂指令的能力使它与众不同,尤其是在创造性工作和编码任务中。

ChatGPT证明了它在处理大量文本和进行详细分析方面的勇气。它处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种型号都很有能力。然而,如果你正在考虑升级到付费级别,鉴于其额外的功能集,ChatGPT可能是大多数人的最佳选择。例外的情况是,如果你从事创造性的写作或编码,到目前为止,克劳德是无可争议的王者。

你可以为更适合你特定需求的模型付费,并将另一个的免费版本用于不同的任务。然而,如果你手头拮据,又不是超级用户,那么OpenAI和Anthropic免费提供他们的顶级机型就太好了。

由Ryan Ozawa编辑。

最新 更多 >
  • 1 投资者抄底买入加密货币 以太坊ETF本周净流入约1.2亿美元

    在经历了波动剧烈的一周之后,加密货币市场在进入周末之前显得比较平静,这一周的波动考验了新加入加密货币交易的机构投资者对巨幅波动的反应,而对于经验丰富的数字货币投资者来说,这种巨幅波动已经司空见惯。智通财经APP获悉,本周早些时候,比特币和以太坊的抛售潮开始,导致市场价值蒸发了3670亿美元,而此时日本市场也在暴跌。然而,加密货币交易者并未被吓倒,反而选择在低位买入。本周,现货以太坊交易所交易基金(

  • 2 当下是熊市还是牛市布局4种加密货币成为百万富翁

    我们散户该怎么去对面这种半死不活的行情呢?目前大饼表现为涨一段时间后横盘一段时间。特别是山寨币,跌成狗了,经常上下来回插针,然后突然拉伸,又狠狠的砸。有时候我们需要做的不多,照葫芦画瓢,预测一下接下来可能会发生的事就好。山寨币的爆发期通常很短,这种拉伸通常发生在牛市的最后1到2个月内。美联储方面,8月份利率保持不变的可能性约为94.5%,但9月份利率保持不变的可能性为0%。这表明从9月份开始降息几

  • 3 字节跳动在中国推出OpenAI的Sora竞争对手“Jimeng AI”

    字节跳动凭借名为Jimeng AI的最新软件进入了人工智能视频生成市场,该软件可以从文本生成视频。此次发布使TikTok的母公司字节跳动与其他科技公司和市场新进入者直接竞争。 Jimeng AI是一种文本到视频生成模型,在OpenAI于今年2月发布Sora后流行起来。该应用程序在7月份为Android发布后,最近在苹果商店推出。 中国公司推出竞争性的文本到视频模型 OpenAI首席技术官Mira

  • 4 MicroStrategy(MSTR)股票现在便宜了90%-原因如下

    MicroStrategy(MSTR)的股价在周四开盘时仅为131美元,比前一天收盘时下跌了89.4%。 价格变化不是由于市场崩盘或大规模抛售,而是之前宣布的“股票分割”的结果,该分割现已永久生效。 MicroStrategy股票分割 股票分割是指公司通过向所有现有股东按其当前持股比例发行新股来增加其已发行股份的数量。 上个月,MicroStrategy宣布,MSTR股票将在8月7日交易结束后进行

  • 5 突发 Ripple赢得与SEC的诉讼 XRP币上涨30% 未来如何发展?

    美国证券监管机构与Ripple公司之间长达4年的争斗终于结束了。Ripple 是一家总部位于旧金山的金融科技公司,以其区块链和 XRP 加密货币驱动的高效支付服务而闻名。2020 年 12 月,美国证券交易委员会 (SEC) 起诉 Ripple 通过 XRP 加密货币运营支付服务并出售 XRP,以及针对 Ripple 的其他多项指控。SEC 还对 XRP 加密的性质提出了质疑,声称其使用违反了《证

  • 6 比特币8月5日暴跌:后续该看涨还是看跌?| TrendX研究院

    2024年8月5日,比特币市场再次经历了一次显著的价格波动。在一天之内,比特币价格暴跌,引发了广泛的市场关注和讨论。此次暴跌不仅让投资者措手不及,也让市场分析师开始深入探讨其中的原因及未来可能的发展趋势。在这篇文章中,我们将解读此次比特币暴跌背后的三大看跌预警信号,同时也探讨三大看涨信号,以期为投资者提供更为全面的视角。三大看跌预警信号市场情绪转变市场情绪在加密货币投资中起着至关重要的作用。在比特

  • 7 XRP在SEC胜利后反弹:这是牛市的开始吗?

    XRP在过去一周飙升超过5%,截至发稿时交易价格为0.60美元。技术和基本面分析表明,未来价格可能会出现波动,并强调了长期看涨的情景。 在最近战胜美国证券交易委员会(SEC)后,XRP的价格目前出现了显著反弹。 在过去的一周里,XRP现在飙升了5%以上,其新闻发布时的价格为0.60美元。 这一激增不仅反映在其价格上,还反映在其市值上,在过去七天里,市值增加了大约10亿美元。 XRP的日交易量也从上

  • 8 X因应欧盟压力暂停人工智能培训数据采集

    在爱尔兰数据保护委员会(DPC)进行调查后,社交媒体巨头X已停止从欧洲用户那里收集个人信息,以训练其人工智能(AI)系统。根据DPC周五的一份声明,在有人担心该公司的数据行为可能违反《通用数据保护条例》(GDPR)后,该公司被暂停。 这项调查是针对倡导组织“不关你的事”(NOYB)牵头的欧洲国家提出的八项投诉而发起的。NOYB指责该公司未能获得用户的明确同意,并且在收集数据方面缺乏透明度,从而违反

  • 9 大规模比特币和加密货币崩溃和史诗般的复苏:本周回顾

    本周,加密货币市场发生了最剧烈的崩盘之一,这是自2022年11月FTX崩溃以来我们从未见过的。更有趣的是,在接下来的几天里,大多数硬币都得到了史诗般的恢复。最终,市场最终损失了约700亿美元的总资本,但情况可能会更糟。 从比特币开始,本周早些时候,其价格暴跌至5万美元以下,在短短两天内下跌了20%以上。这一举措始于周日,当时市场的流动性传统上较低,更容易影响定价。链上数据显示,最活跃的卖家之一是J

  • 10 区块链动态2024年8月7日早参考

    00:00-09:00关键词:比特币与贵金属在7月份成负相关、欧洲AFME提出扩大DLT在资本市场规模的政策路线图、Coinbase:GenAI平台Coinbase-GPT将为用户定制个性化解决方案、Valour将在肯尼亚推出数字资产ETP、Coinbase将上线G 但不会帮助用户进行迁移、矿企Core Scientific与CoreWeave签署新托管协议、ETH供应量的质押比例达到27.95%