新的克劳德AI Sonnet模型能击败ChatGPT-4o吗?

时间:2024-09-23 编辑: 浏览:(896)

由前OpenAI研究人员创立的领先人工智能研究公司Anthropic昨天宣布推出Claude 3.5 Sonnet,这是Claude AI家族中最新、最先进的模型。这一重大升级紧跟着OpenAI的GPT-4o发布,这是一种原生的多模式大型语言模型(LLM),最近在LMSys聊天机器人领域占据了榜首。

Claude 3.5 Sonnet被定位为一款中档车型,介于Haiku和Opus之间,Haiku是一款专为高效任务设计的小型车型,Opus是一款为Anthropic付费版提供动力的高端车型,每月售价20美元。目前,Haiku和Opus只提供3.0版本,这使Sonnet 3.5成为他们在功能、知识和效率方面的最佳模型。

Anthropic声称其新模型在几乎所有合成基准中都优于GPT-4o,尤其是在使用多镜头提示技术时——本质上提供了不止一个例子。

这些综合基准衡量模型在不同领域的性能。通过设置标准数量的条件和测试,可以获得定性变量的定量值。换言之,这些基准并没有说哪个模型看起来或更擅长一项任务,而是以可衡量的方式说明了一个模型有多好。

就性能而言,Anthropic表示,Claude 3.5 Sonnet的运行速度是之前顶级车型Claude 3 Opus的两倍,提供了更多的动力,而成本仅为其五分之一。这使得它成为复杂任务的理想选择,例如上下文敏感的客户支持和需要与模型进行大量来回交互的专业任务。

它的创作者表示,与前代相比,它在理解细微差别、幽默和复杂指令方面也有了显著的进步。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic说,它特别擅长解读图表和从不完美的图像中转录文本。现在,该公司的顶级模型可以理解视觉提示的上下文,而不仅仅是描述事物。这使其在多模式能力方面与ChatGPT和Reka直接竞争。

例如,我们给克劳德提供了一张地图,并询问我们在那个地方可以做什么。它发现这张地图是芝加哥的,并给了我们一些相关的建议,比如使用公共交通工具而不是出租车,或者参观威克公园、林肯公园和海德公园。

该模型还提供了高级编码功能。根据Anthropic提供的相关工具,它可以独立编写、编辑和执行代码,并进行复杂的推理和故障排除。此功能可有效地简化开发人员的工作流程并加快编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这允许用户实时查看、编辑和构建Claude生成的内容。它将人工智能创建的输出直接集成到项目和工作流程中,使其在与代码交互时特别有用,并为Claude提供了比ChatGPT或Reka等传统聊天机器人更完善的用户界面。

Anthropic预计将在今年晚些时候发布Haiku和Opus版本的Claude 3.5。如果Sonnet能够挑战GPT-4o,Opus可能会成为未来GPT迭代的有力竞争对手,例如假设的GPT-5。

Claude 3.5 Sonnet vs.ChatGPT-4o

总的来说,这两种型号都展示了令人印象深刻的功能,但在各种任务中相互竞争时,它们的表现如何?让我们来探究一下他们在编码、创意写作和专业任务方面的表现。

易用性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和扩展交互方面存在一些限制。与付费版本相比,免费版本的Claude为用户提供了更受限制的体验,具有更小的令牌上下文和更少的可用提示。如果用户分析长文档或使用代码,则尤其如此。

ChatGPT的免费版本为用户提供了更慷慨的代币和提示分配,允许更长、更复杂的交互,而无需付费升级。OpenAI也提供“Plus”订阅,但在被要求升级之前,需要更长的时间才能达到限制。

获胜者:ChatGPT赢得本轮比赛。它的免费版本提供了更大的容量和可访问性,对于那些不愿意或无法支付高级人工智能服务费用的人来说,它更方便用户。克劳德的方法似乎是为了鼓励用户升级到付费级别,这可能会对一些用户造成障碍。

编码功能

我们通过让两个模型创建一个游戏来测试克劳德的编码能力。然而,我们没有要求复制可能成为训练数据集一部分的已知游戏,而是提出了一个测量两名玩家之间反应时间的游戏的想法。

提示:我想创建一个游戏。两个玩家在同一台电脑上玩游戏。一个控制着字母L,另一个控制字母A。我们有一个用线除以二的域。每个玩家控制50%的场地。控制A的玩家控制左半部分,控制L的玩家控制右半部分。

在一个随机的时刻,直线将向左或向右移动。正在失去阵地的玩家必须尽快按下按钮,以防止队伍再次移动。完成后,队伍将保持原位,玩家将不得不等待,直到队伍在随机时刻开始移动到随机位置。

最终控制0%屏幕的玩家输了,游戏结束。用Python或HTML5编写。你认为效果更好的那个。

克劳德3.5十四行诗表现出色。它不仅按照规定提供了游戏,而且还主动将基本但功能性的图形界面与视觉提示结合起来,使游戏更容易理解。

克劳德迅速完成了这项任务,在不到10秒内展示了增强的编码能力。

ChatGPT还按照给定的规范创建了游戏。然而,生成任务需要更长的时间(近45秒),并且没有包括文本线索等额外功能,使游戏更容易理解。

此外,游戏的节奏要慢得多,这违背了反应游戏的目的——“游戏结束”弹出窗口并没有说明谁赢了。

获胜者:克劳德3.5十四行诗获胜。它能够快速生成更全面、功能更丰富的代码,包括图形界面等未经提示的附加功能,这表明它具有卓越的编码能力。

此外,事实证明,它的“工件”功能非常方便,可以在聊天机器人的界面中测试代码,而无需将代码复制并粘贴到外部工具中——这就是ChatGPT的工作原理。

创造性写作

我们要求两位模特根据一个特定的想法创作一个虚构的故事。我们想测试这些模特的创造力,他们的故事有多丰富和引人入胜,以及他们对创意作家的整体表现有多好。

促使

写一篇关于何塞·兰兹的短篇小说,他是一位2150年的时间旅行者,穿越回1000年。确保你的叙述富含生动的描述性语言,无论你选择什么,何塞的文化背景和身体特征都被真实地描绘出来。

你故事的核心应该围绕着时间旅行悖论,以及试图解决或改变过去的问题以改变当前时间线的徒劳。强调具有讽刺意味的是,未来之所以如此存在,正是因为过去就是它。尽管何塞有意影响1000年的事件,但他所采取的行动注定会发生,因为这些行动是2150年存在的必要条件。这个悖论的实现是故事中的一个关键时刻。

克劳德3.5十四行诗的叙事展现了语言的自然流动和引人入胜的结构。人工智能巧妙地融入了时间旅行悖论等复杂概念,创造了一个丰富而微妙的故事,并承担了创造性的风险。

在它的版本中,主人公试图阻止一个数学概念的发展,这个概念在他那个时代导致了灾难性的后果。在与研究者的社会融合并似乎阻止了这一概念的发展后,他再次发现自己实际上是他所创造的时间悖论的关键部分,甚至在古代著作中找到了自己的参考。

ChatGPT生成了一个故事,该故事遵循了给定的指导方针,但遵循了更可预测的路径。虽然它很有能力,但它的叙事缺乏克劳德故事所展现的深度和创造性。

GPT-4o制作了一个直截了当的故事,主人公试图通过与过去的查曼分享先进的教义来防止能源危机。然而,回到他的时间线,他发现历史在重复,什么都没有改变。

获奖者:克劳德在创意写作方面获胜。它能够产生更具想象力、细致入微和结构良好的叙事,这使它与众不同,成为需要创造力的任务的绝佳选择。

例如,更容易想象融入社会会如何影响一群研究人员并阻止他们发现一些东西。相反,与chaman分享先进知识对防止能源危机来说意义不大。

总结与分析

当收到一份42页的国际货币基金组织报告时。ChatGPT毫无问题地接受了整个文档。克劳德,另一方面,抛出了一个错误,说PDF太长了。我们把它剪到了31页,这足以在Pro版本中被接受。(免费版本只能分析大约25页。)

撇开局限性不谈,《克劳德3.5十四行诗》对缩短的文档进行了有力的分析,准确地提取了关键点和逐字逐句的引用,而没有出现幻觉——这已经是对《克劳德3》的重大改进,后者容易编造信息。然而,它的引用是模糊的,没有ChatGPT选择的引用那么相关。

ChatGPT在处理整个42页文档时没有截断,给人留下了深刻印象。它提供了更全面的细分,提供了丰富的相关信息。

它使用要点来强调关键要素,然后提供每一节的摘要,这比克劳德提供的方法更有用,克劳德提供了一个没有结构和缺少报告关键要素的摘要。

ChatGPT还展示了一种战略方法,侧重于报告的总结和结论,以有效地提炼关键点。这是在深入分析之前对广泛的研究有一个大致了解的可靠方法。

获奖者:ChatGPT在总结和分析方面处于领先地位。它能够完整处理较长的文档,再加上其全面而战略性的总结方法,使其更适合于学术研究和专业分析任务。

其他功能

Claude 3.5 Sonnet引入了“Artifacts”,这是一项允许用户实时查看、编辑和构建人工智能生成的内容的功能。这种将人工智能输出直接集成到项目和工作流程中的方式增强了用户交互,尤其是与代码的交互。

ChatGPT Plus提供了为特定任务训练自定义GPT的能力,这是Claude目前无法提供的功能。此自定义选项在专业和学术环境中提供了更多的通用性。它还集成了Dall ee 3图像生成器,这对于使用自然语言生成图像非常有用。

获胜者:ChatGPT在附加功能方面获胜。虽然Claude的“工件”功能提供了独特的实时交互功能,但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的特定需求,但GPT可以帮助各种各样的用户。ChatGPT还可以创建图像,这是相对于Claude的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细致的语言使用和高效编码的任务中大放异彩。它掌握和执行复杂指令的能力使它与众不同,尤其是在创造性工作和编码任务中。

ChatGPT证明了它在处理大量文本和进行详细分析方面的勇气。它处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种型号都很有能力。然而,如果你正在考虑升级到付费级别,鉴于其额外的功能集,ChatGPT可能是大多数人的最佳选择。例外的情况是,如果你从事创造性的写作或编码,到目前为止,克劳德是无可争议的王者。

你可以为更适合你特定需求的模型付费,并将另一个的免费版本用于不同的任务。然而,如果你手头拮据,又不是超级用户,那么OpenAI和Anthropic免费提供他们的顶级机型就太好了。

由Ryan Ozawa编辑。

最新 更多 >
  • 1 马拉松数字控股公司与肯尼亚共和国能源和石油部签署协议,以加强肯尼亚的能源部门

    马拉松数字控股公司与肯尼亚共和国能源和石油部签署协议,以加强肯尼亚的能源部门 该协议建立了一个联合指导委员会和一个框架,利用绿色数据中心优化可再生能源项目,推进技术基础设施,促进肯尼亚共和国的经济发展 佛罗里达州劳德代尔堡,2024年5月24日(环球新闻)——马拉松数字控股有限公司(NASDAQ:MARA)(“马拉松”或“公司”)是利用数字资产计算支持能源转型的全球领导者,已与肯尼亚共和国能源和石

  • 2 比特币跌至近6.5万美元,Mt.Gox债权人在Kraken获得资产

    加密货币周二下跌,因为Kraken开始向已倒闭的交易所Mt.Gox的债权人分配资产,潜在的抛售压力给市场带来了压力。 比特币{{BTC}}暴跌至65500美元,在过去24小时内下跌近4%,而比特币现金{{BCH}}同期暴跌超过7%。 加密货币基准CoinDesk 20指数下跌3%,山寨币巨头solana、Ripple的XRP和Cardano的ADA下跌4%-5%。 以太坊的表现优于大多数资

  • 3 ETH价格怎么不涨反跌?利好落地为利空?后续怎么看

    以太坊ETF已于昨晚正式开始交易,或许是由于 ETF 的获批预期早已被市场消化,ETH 的价格在 SEC 的公告发布后并未出现明显波动,截至发文暂报3450, 24 小时跌幅 1.3% 。当下,市场最为关注的事项之一无疑是 ETH 价格的后续走势,ETF所带来的资金流入究竟能否提振 ETH 的价格?是否会出现潜在的“利好出尽即利空”的走势?尽管 5 月底 ETH 的价格曾一度涨至 3959 美元,

  • 4 以太坊现货ETF受追捧,首秀成交量超5亿美元

    当地时间7约23日周二,以太坊现货ETF在美国公开上市交易。亮相首日,投资者表现踊跃,媒体估算,首批九只以太坊ETF在开盘后几小时的合计成交量就超过5亿美元。媒体指出,相比今年1月比特币现货ETF上市首日的46亿美元成交额,以太坊ETF的交易量只是小巫见大巫。但这对在美国市场首秀的ETF来说,已经算强劲的开头。几只以太坊的ETF本周二有望跻身史上上市首日交易量前50强美国ETF行列。其中,截至美东

  • 5 特斯拉股价在盈利下滑后盘前交易下跌7%

    特斯拉股价在美国盘前交易中下跌超过8%,此前这家电动汽车制造商在其汽车业务持续面临压力的情况下公布了第二季度收益,低于预期。埃隆·马斯克的电动汽车公司报告称,6月季度汽车收入同比下降7%,至199亿美元,而其调整后的利润率也有所下降。在销售放缓和竞争加剧的情况下,该公司被迫在全球范围内大幅降价,并提供折扣和激励措施,尤其是在其主要市场之一中国。 今年迄今为止,特斯拉股价下跌近1%,而标准普尔5

  • 6 Memecoin Launchpads之战打响 pump.fun能否保持领先

    作者:Kimberly Liang (@kimberlyliang_),研究分析师实习生;编译:白水,Memecoins 已成为夏季的热潮。总统选举的投机性质刺激了 memecoins 的创造,并导致了重大的市场波动。在总统乔·拜登宣布放弃连任竞选的几分钟后,受卡玛拉·哈里斯启发的 memecoin $KAMA 创下了 2400 万美元的创纪录市值,几乎是 $BODEN 的四倍,后者最初经历了近

  • 7 晚间必读5篇 | 美元潮汐与减半如何影响比特币?

    1.链抽象现状:解决方案及相关项目全览加密行业充满着变化,为数不多的不变事项之一就是区块链的数量在不断增长。无论是以太坊L2、应用链,还是alt L1,似乎一直都有大量的新的区块链层出不穷。点击阅读2.Pantera创始人:区块链的政治枢纽——拥有一位与加密社区利益一致的总统我一直不明白为什么要持反对态度。谁是反对者?我的意思是,除了沃伦参议员,谁会投票反对为地球上所有拥有智能手机的人提供金融包容

  • 8 Kamala Harris的竞选团队将在比特币会议上发表演讲

    卡玛拉·哈里斯的竞选团队正在与比特币2024会议进行谈判,讨论副总统本周在田纳西州纳什维尔举行的活动上的讲话。 组织此次会议的比特币杂志首席执行官Daid Bailey在X上表示:“我们正在与Kamala Harris竞选团队进行谈判,希望她能在会议上发言。”。 前总统、共和党候选人唐纳德·特朗普也在会上发言。过去两个月,特朗普一直在讨好加密货币社区,承诺为该行业提供更友好的监管环境。 在拜登政府

  • 9

    http://img.528btc.com.cn/pro/2024-07-24/img/1721815518357b839850522544hxh9b5554a39jj0c784.jpg

  • 10 在美国证券交易委员会批准ETF之际,以太币的价格调整预测落空

    美国证券交易委员会(SEC)最终批准了ETH ETF开始交易。加密货币研究公司10x research在其时事通讯中表示,ETH价格可能会出现下一次调整。 另请阅读:现货以太坊ETF开始交易时会发生什么 交易图表和数据显示,自美国证券交易委员会同时批准9只现货ETH ETF以来,市值第二大的加密货币价格大幅上涨。这些申请包括93亿美元的灰度投资信托。 以太币价格在ETF交易前回升 根据10X Re