新的克劳德AI Sonnet模型能击败ChatGPT-4o吗?

时间:2024-09-22 编辑: 浏览:(706)

由前OpenAI研究人员创立的领先人工智能研究公司Anthropic昨天宣布推出Claude 3.5 Sonnet,这是Claude AI家族中最新、最先进的模型。这一重大升级紧跟着OpenAI的GPT-4o发布,这是一种原生的多模式大型语言模型(LLM),最近在LMSys聊天机器人领域占据了榜首。

Claude 3.5 Sonnet被定位为一款中档车型,介于Haiku和Opus之间,Haiku是一款专为高效任务设计的小型车型,Opus是一款为Anthropic付费版提供动力的高端车型,每月售价20美元。目前,Haiku和Opus只提供3.0版本,这使Sonnet 3.5成为他们在功能、知识和效率方面的最佳模型。

Anthropic声称其新模型在几乎所有合成基准中都优于GPT-4o,尤其是在使用多镜头提示技术时——本质上提供了不止一个例子。

这些综合基准衡量模型在不同领域的性能。通过设置标准数量的条件和测试,可以获得定性变量的定量值。换言之,这些基准并没有说哪个模型看起来或更擅长一项任务,而是以可衡量的方式说明了一个模型有多好。

就性能而言,Anthropic表示,Claude 3.5 Sonnet的运行速度是之前顶级车型Claude 3 Opus的两倍,提供了更多的动力,而成本仅为其五分之一。这使得它成为复杂任务的理想选择,例如上下文敏感的客户支持和需要与模型进行大量来回交互的专业任务。

它的创作者表示,与前代相比,它在理解细微差别、幽默和复杂指令方面也有了显著的进步。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic说,它特别擅长解读图表和从不完美的图像中转录文本。现在,该公司的顶级模型可以理解视觉提示的上下文,而不仅仅是描述事物。这使其在多模式能力方面与ChatGPT和Reka直接竞争。

例如,我们给克劳德提供了一张地图,并询问我们在那个地方可以做什么。它发现这张地图是芝加哥的,并给了我们一些相关的建议,比如使用公共交通工具而不是出租车,或者参观威克公园、林肯公园和海德公园。

该模型还提供了高级编码功能。根据Anthropic提供的相关工具,它可以独立编写、编辑和执行代码,并进行复杂的推理和故障排除。此功能可有效地简化开发人员的工作流程并加快编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这允许用户实时查看、编辑和构建Claude生成的内容。它将人工智能创建的输出直接集成到项目和工作流程中,使其在与代码交互时特别有用,并为Claude提供了比ChatGPT或Reka等传统聊天机器人更完善的用户界面。

Anthropic预计将在今年晚些时候发布Haiku和Opus版本的Claude 3.5。如果Sonnet能够挑战GPT-4o,Opus可能会成为未来GPT迭代的有力竞争对手,例如假设的GPT-5。

Claude 3.5 Sonnet vs.ChatGPT-4o

总的来说,这两种型号都展示了令人印象深刻的功能,但在各种任务中相互竞争时,它们的表现如何?让我们来探究一下他们在编码、创意写作和专业任务方面的表现。

易用性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和扩展交互方面存在一些限制。与付费版本相比,免费版本的Claude为用户提供了更受限制的体验,具有更小的令牌上下文和更少的可用提示。如果用户分析长文档或使用代码,则尤其如此。

ChatGPT的免费版本为用户提供了更慷慨的代币和提示分配,允许更长、更复杂的交互,而无需付费升级。OpenAI也提供“Plus”订阅,但在被要求升级之前,需要更长的时间才能达到限制。

获胜者:ChatGPT赢得本轮比赛。它的免费版本提供了更大的容量和可访问性,对于那些不愿意或无法支付高级人工智能服务费用的人来说,它更方便用户。克劳德的方法似乎是为了鼓励用户升级到付费级别,这可能会对一些用户造成障碍。

编码功能

我们通过让两个模型创建一个游戏来测试克劳德的编码能力。然而,我们没有要求复制可能成为训练数据集一部分的已知游戏,而是提出了一个测量两名玩家之间反应时间的游戏的想法。

提示:我想创建一个游戏。两个玩家在同一台电脑上玩游戏。一个控制着字母L,另一个控制字母A。我们有一个用线除以二的域。每个玩家控制50%的场地。控制A的玩家控制左半部分,控制L的玩家控制右半部分。

在一个随机的时刻,直线将向左或向右移动。正在失去阵地的玩家必须尽快按下按钮,以防止队伍再次移动。完成后,队伍将保持原位,玩家将不得不等待,直到队伍在随机时刻开始移动到随机位置。

最终控制0%屏幕的玩家输了,游戏结束。用Python或HTML5编写。你认为效果更好的那个。

克劳德3.5十四行诗表现出色。它不仅按照规定提供了游戏,而且还主动将基本但功能性的图形界面与视觉提示结合起来,使游戏更容易理解。

克劳德迅速完成了这项任务,在不到10秒内展示了增强的编码能力。

ChatGPT还按照给定的规范创建了游戏。然而,生成任务需要更长的时间(近45秒),并且没有包括文本线索等额外功能,使游戏更容易理解。

此外,游戏的节奏要慢得多,这违背了反应游戏的目的——“游戏结束”弹出窗口并没有说明谁赢了。

获胜者:克劳德3.5十四行诗获胜。它能够快速生成更全面、功能更丰富的代码,包括图形界面等未经提示的附加功能,这表明它具有卓越的编码能力。

此外,事实证明,它的“工件”功能非常方便,可以在聊天机器人的界面中测试代码,而无需将代码复制并粘贴到外部工具中——这就是ChatGPT的工作原理。

创造性写作

我们要求两位模特根据一个特定的想法创作一个虚构的故事。我们想测试这些模特的创造力,他们的故事有多丰富和引人入胜,以及他们对创意作家的整体表现有多好。

促使

写一篇关于何塞·兰兹的短篇小说,他是一位2150年的时间旅行者,穿越回1000年。确保你的叙述富含生动的描述性语言,无论你选择什么,何塞的文化背景和身体特征都被真实地描绘出来。

你故事的核心应该围绕着时间旅行悖论,以及试图解决或改变过去的问题以改变当前时间线的徒劳。强调具有讽刺意味的是,未来之所以如此存在,正是因为过去就是它。尽管何塞有意影响1000年的事件,但他所采取的行动注定会发生,因为这些行动是2150年存在的必要条件。这个悖论的实现是故事中的一个关键时刻。

克劳德3.5十四行诗的叙事展现了语言的自然流动和引人入胜的结构。人工智能巧妙地融入了时间旅行悖论等复杂概念,创造了一个丰富而微妙的故事,并承担了创造性的风险。

在它的版本中,主人公试图阻止一个数学概念的发展,这个概念在他那个时代导致了灾难性的后果。在与研究者的社会融合并似乎阻止了这一概念的发展后,他再次发现自己实际上是他所创造的时间悖论的关键部分,甚至在古代著作中找到了自己的参考。

ChatGPT生成了一个故事,该故事遵循了给定的指导方针,但遵循了更可预测的路径。虽然它很有能力,但它的叙事缺乏克劳德故事所展现的深度和创造性。

GPT-4o制作了一个直截了当的故事,主人公试图通过与过去的查曼分享先进的教义来防止能源危机。然而,回到他的时间线,他发现历史在重复,什么都没有改变。

获奖者:克劳德在创意写作方面获胜。它能够产生更具想象力、细致入微和结构良好的叙事,这使它与众不同,成为需要创造力的任务的绝佳选择。

例如,更容易想象融入社会会如何影响一群研究人员并阻止他们发现一些东西。相反,与chaman分享先进知识对防止能源危机来说意义不大。

总结与分析

当收到一份42页的国际货币基金组织报告时。ChatGPT毫无问题地接受了整个文档。克劳德,另一方面,抛出了一个错误,说PDF太长了。我们把它剪到了31页,这足以在Pro版本中被接受。(免费版本只能分析大约25页。)

撇开局限性不谈,《克劳德3.5十四行诗》对缩短的文档进行了有力的分析,准确地提取了关键点和逐字逐句的引用,而没有出现幻觉——这已经是对《克劳德3》的重大改进,后者容易编造信息。然而,它的引用是模糊的,没有ChatGPT选择的引用那么相关。

ChatGPT在处理整个42页文档时没有截断,给人留下了深刻印象。它提供了更全面的细分,提供了丰富的相关信息。

它使用要点来强调关键要素,然后提供每一节的摘要,这比克劳德提供的方法更有用,克劳德提供了一个没有结构和缺少报告关键要素的摘要。

ChatGPT还展示了一种战略方法,侧重于报告的总结和结论,以有效地提炼关键点。这是在深入分析之前对广泛的研究有一个大致了解的可靠方法。

获奖者:ChatGPT在总结和分析方面处于领先地位。它能够完整处理较长的文档,再加上其全面而战略性的总结方法,使其更适合于学术研究和专业分析任务。

其他功能

Claude 3.5 Sonnet引入了“Artifacts”,这是一项允许用户实时查看、编辑和构建人工智能生成的内容的功能。这种将人工智能输出直接集成到项目和工作流程中的方式增强了用户交互,尤其是与代码的交互。

ChatGPT Plus提供了为特定任务训练自定义GPT的能力,这是Claude目前无法提供的功能。此自定义选项在专业和学术环境中提供了更多的通用性。它还集成了Dall ee 3图像生成器,这对于使用自然语言生成图像非常有用。

获胜者:ChatGPT在附加功能方面获胜。虽然Claude的“工件”功能提供了独特的实时交互功能,但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的特定需求,但GPT可以帮助各种各样的用户。ChatGPT还可以创建图像,这是相对于Claude的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细致的语言使用和高效编码的任务中大放异彩。它掌握和执行复杂指令的能力使它与众不同,尤其是在创造性工作和编码任务中。

ChatGPT证明了它在处理大量文本和进行详细分析方面的勇气。它处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种型号都很有能力。然而,如果你正在考虑升级到付费级别,鉴于其额外的功能集,ChatGPT可能是大多数人的最佳选择。例外的情况是,如果你从事创造性的写作或编码,到目前为止,克劳德是无可争议的王者。

你可以为更适合你特定需求的模型付费,并将另一个的免费版本用于不同的任务。然而,如果你手头拮据,又不是超级用户,那么OpenAI和Anthropic免费提供他们的顶级机型就太好了。

由Ryan Ozawa编辑。

最新 更多 >
  • 1 CWS币有风险吗

    近年来,加密货币市场发展迅猛,各种新的数字货币不断涌现。其中,CWS币作为一种新兴的加密货币备受关注。然而,对于CWS币是否存在风险这个问题,我们需要进行深入的分析和思考。首先,CWS币作为一种较新的数字货币,其市场波动性较高是不可否认的事实。加密货币市场本身就存在较大的风险,价格波动可能会造成投资者的资金损失。对于CWS币来说,尽管其可能具备一定的投资潜力,但我们不能忽视其价格可能会出现大幅下跌

  • 2 VMT币有风险吗

    虚拟货币目前已成为金融市场中备受关注的热门投资品种之一,而VMT币作为其中一种,在近期也引起了大量投资者的兴趣。然而,对于VMT币的投资者来说,他们必须要明确,虚拟货币市场是一个高度风险的投资领域。首先,虚拟货币市场的波动性是非常大的。与传统的金融市场相比,虚拟货币市场更加不稳定,价格的波动幅度可能会非常之大。这意味着,投资者在短时间内可能会经历巨额的盈利,但同样也承担着可能的巨大损失的风险。因此

  • 3 WISP币值多少钱一枚

    WISP币是一种数字货币,它是一个去中心化的加密货币项目,旨在提供更安全、更隐私、更高效的交易体验。自问世以来,WISP币在数字货币市场中备受关注,并被越来越多的投资者所青睐。那么,WISP币的当前价值是多少呢?根据当前市场行情,WISP币的平均价格大致在xx美元一枚左右。这个价格是根据市场供需关系和投资者交易行为所决定的,随着市场状况的变化,它也会不断波动。WISP币作为一种去中心化加密货币,其

  • 4 wfx币有希望吗

    WFX币,是近年来备受关注的数字货币之一。作为区块链技术的应用之一,WFX币在自身的发展壮大中,引起了很多人的关注。然而,对于WFX币是否有希望,这可是一个值得我们深入探讨的话题。首先,我们需要了解WFX币的基本情况。WFX币是一种基于区块链技术的数字货币,它采用了独特的算法和技术,旨在为用户提供安全、高效的交易环境。相对于传统的货币交易方式,WFX币的交易流程更加简单,且可以实现全球范围内的即时

  • 5 WBM币有风险吗

    WBM币是近期备受关注的数字货币之一,其背后技术和概念引发了许多投资者的兴趣。然而,任何一种投资都伴随着风险,WBM币也不例外。在探讨WBM币的投资潜力之前,我们必须首先了解其风险因素,并做出明智的决策。首先,WBM币所处的市场是非常动荡和不稳定的。数字货币市场是一个高度竞争和波动性极大的领域,价格的大幅度波动可能导致投资者的损失。WBM币作为一种新兴的数字货币,其价格可能会受到市场供需关系、投资

  • 6 WEMP币有风险吗

    随着区块链技术的发展和数字货币市场的繁荣,越来越多的人开始涉足加密货币投资领域。其中,一种备受关注的加密货币是WEMP币。然而,像其他数字资产一样,WEMP币也存在一定的风险。本文将探讨WEMP币的风险以及投资者应如何评估并管理这些风险。首先,WEMP币存在市场风险。加密货币市场高度波动,价格可能会出现剧烈的波动。虽然WEMP币的价格可能会上涨,但也有可能会经历大幅下跌。因此,投资者需要意识到这一

  • 7 VNO币有希望吗

    近年来,加密货币市场蓬勃发展,各类数字货币涌现出来。作为其中的一员,VNO币备受人们关注。那么,VNO币有希望吗?我们来分析一下。VNO币是一个新兴的加密货币,正在逐渐赢得用户的青睐。它是一个基于区块链技术的数字货币,通过去中心化的方式进行交易,使得交易更加安全和透明。VNO币的创新之处在于,它通过运用人工智能和大数据分析来预测市场走势,使投资更加智能化。这一特点,使得VNO币具有很大的潜力。首先

  • 8 WAIFER币有希望吗

    WAIFER币,作为一种新兴的数字货币,近年来备受关注。然而,对于它的前景是否乐观,人们持不同的观点。有人认为WAIFER币具有巨大的增长潜力,而另一些人则对其持保留态度。支持者认为WAIFER币有希望成为未来的主流数字货币之一。首先,WAIFER币采用了高度安全的区块链技术,保证了交易的透明性与可靠性。这一特点吸引了越来越多的投资者和使用者。其次,WAIFER币的交易速度快,手续费低,将极大地方

  • 9 wcdc币值多少钱一枚

    在当前的加密货币市场中,有许多各种各样的数字货币在不断涌现。其中一种备受关注的数字货币是WCDC币。那么WCDC币到底值多少钱一枚呢?让我们来详细了解一下。WCDC币是一种基于区块链技术的数字货币,它具有去中心化、匿名性、安全性等特点。WCDC币的发行总量有限,这使得其在供需关系下价格更具稳定性。实际上,WCDC币的价格是由市场力量决定的,因此它的价值会受到供求关系、投资者信心、市场动态等因素的影

  • 10 WAGMI币值多少钱一枚

    WAGMI币是近期市场上备受瞩目的一种加密货币,它的价值一直以来备受争议和关注。WAGMI币的发行量非常有限,仅有100万枚,这使得它成为了市场上的宝贵资源。目前,WAGMI币的价格每枚大约在100美元左右。为什么WAGMI币如此受欢迎呢?首先,WAGMI币是一种具有强大技术支持的加密货币。它采用了最新的区块链技术,具备高度的安全性和可扩展性。其次,WAGMI币的团队非常专业,拥有丰富的经验和深厚