新的克劳德AI Sonnet模型能击败ChatGPT-4o吗?

时间:2024-09-21 编辑: 浏览:(11)

由前OpenAI研究人员创立的领先人工智能研究公司Anthropic昨天宣布推出Claude 3.5 Sonnet,这是Claude AI家族中最新、最先进的模型。这一重大升级紧跟着OpenAI的GPT-4o发布,这是一种原生的多模式大型语言模型(LLM),最近在LMSys聊天机器人领域占据了榜首。

Claude 3.5 Sonnet被定位为一款中档车型,介于Haiku和Opus之间,Haiku是一款专为高效任务设计的小型车型,Opus是一款为Anthropic付费版提供动力的高端车型,每月售价20美元。目前,Haiku和Opus只提供3.0版本,这使Sonnet 3.5成为他们在功能、知识和效率方面的最佳模型。

Anthropic声称其新模型在几乎所有合成基准中都优于GPT-4o,尤其是在使用多镜头提示技术时——本质上提供了不止一个例子。

这些综合基准衡量模型在不同领域的性能。通过设置标准数量的条件和测试,可以获得定性变量的定量值。换言之,这些基准并没有说哪个模型看起来或更擅长一项任务,而是以可衡量的方式说明了一个模型有多好。

就性能而言,Anthropic表示,Claude 3.5 Sonnet的运行速度是之前顶级车型Claude 3 Opus的两倍,提供了更多的动力,而成本仅为其五分之一。这使得它成为复杂任务的理想选择,例如上下文敏感的客户支持和需要与模型进行大量来回交互的专业任务。

它的创作者表示,与前代相比,它在理解细微差别、幽默和复杂指令方面也有了显著的进步。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic说,它特别擅长解读图表和从不完美的图像中转录文本。现在,该公司的顶级模型可以理解视觉提示的上下文,而不仅仅是描述事物。这使其在多模式能力方面与ChatGPT和Reka直接竞争。

例如,我们给克劳德提供了一张地图,并询问我们在那个地方可以做什么。它发现这张地图是芝加哥的,并给了我们一些相关的建议,比如使用公共交通工具而不是出租车,或者参观威克公园、林肯公园和海德公园。

该模型还提供了高级编码功能。根据Anthropic提供的相关工具,它可以独立编写、编辑和执行代码,并进行复杂的推理和故障排除。此功能可有效地简化开发人员的工作流程并加快编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这允许用户实时查看、编辑和构建Claude生成的内容。它将人工智能创建的输出直接集成到项目和工作流程中,使其在与代码交互时特别有用,并为Claude提供了比ChatGPT或Reka等传统聊天机器人更完善的用户界面。

Anthropic预计将在今年晚些时候发布Haiku和Opus版本的Claude 3.5。如果Sonnet能够挑战GPT-4o,Opus可能会成为未来GPT迭代的有力竞争对手,例如假设的GPT-5。

Claude 3.5 Sonnet vs.ChatGPT-4o

总的来说,这两种型号都展示了令人印象深刻的功能,但在各种任务中相互竞争时,它们的表现如何?让我们来探究一下他们在编码、创意写作和专业任务方面的表现。

易用性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和扩展交互方面存在一些限制。与付费版本相比,免费版本的Claude为用户提供了更受限制的体验,具有更小的令牌上下文和更少的可用提示。如果用户分析长文档或使用代码,则尤其如此。

ChatGPT的免费版本为用户提供了更慷慨的代币和提示分配,允许更长、更复杂的交互,而无需付费升级。OpenAI也提供“Plus”订阅,但在被要求升级之前,需要更长的时间才能达到限制。

获胜者:ChatGPT赢得本轮比赛。它的免费版本提供了更大的容量和可访问性,对于那些不愿意或无法支付高级人工智能服务费用的人来说,它更方便用户。克劳德的方法似乎是为了鼓励用户升级到付费级别,这可能会对一些用户造成障碍。

编码功能

我们通过让两个模型创建一个游戏来测试克劳德的编码能力。然而,我们没有要求复制可能成为训练数据集一部分的已知游戏,而是提出了一个测量两名玩家之间反应时间的游戏的想法。

提示:我想创建一个游戏。两个玩家在同一台电脑上玩游戏。一个控制着字母L,另一个控制字母A。我们有一个用线除以二的域。每个玩家控制50%的场地。控制A的玩家控制左半部分,控制L的玩家控制右半部分。

在一个随机的时刻,直线将向左或向右移动。正在失去阵地的玩家必须尽快按下按钮,以防止队伍再次移动。完成后,队伍将保持原位,玩家将不得不等待,直到队伍在随机时刻开始移动到随机位置。

最终控制0%屏幕的玩家输了,游戏结束。用Python或HTML5编写。你认为效果更好的那个。

克劳德3.5十四行诗表现出色。它不仅按照规定提供了游戏,而且还主动将基本但功能性的图形界面与视觉提示结合起来,使游戏更容易理解。

克劳德迅速完成了这项任务,在不到10秒内展示了增强的编码能力。

ChatGPT还按照给定的规范创建了游戏。然而,生成任务需要更长的时间(近45秒),并且没有包括文本线索等额外功能,使游戏更容易理解。

此外,游戏的节奏要慢得多,这违背了反应游戏的目的——“游戏结束”弹出窗口并没有说明谁赢了。

获胜者:克劳德3.5十四行诗获胜。它能够快速生成更全面、功能更丰富的代码,包括图形界面等未经提示的附加功能,这表明它具有卓越的编码能力。

此外,事实证明,它的“工件”功能非常方便,可以在聊天机器人的界面中测试代码,而无需将代码复制并粘贴到外部工具中——这就是ChatGPT的工作原理。

创造性写作

我们要求两位模特根据一个特定的想法创作一个虚构的故事。我们想测试这些模特的创造力,他们的故事有多丰富和引人入胜,以及他们对创意作家的整体表现有多好。

促使

写一篇关于何塞·兰兹的短篇小说,他是一位2150年的时间旅行者,穿越回1000年。确保你的叙述富含生动的描述性语言,无论你选择什么,何塞的文化背景和身体特征都被真实地描绘出来。

你故事的核心应该围绕着时间旅行悖论,以及试图解决或改变过去的问题以改变当前时间线的徒劳。强调具有讽刺意味的是,未来之所以如此存在,正是因为过去就是它。尽管何塞有意影响1000年的事件,但他所采取的行动注定会发生,因为这些行动是2150年存在的必要条件。这个悖论的实现是故事中的一个关键时刻。

克劳德3.5十四行诗的叙事展现了语言的自然流动和引人入胜的结构。人工智能巧妙地融入了时间旅行悖论等复杂概念,创造了一个丰富而微妙的故事,并承担了创造性的风险。

在它的版本中,主人公试图阻止一个数学概念的发展,这个概念在他那个时代导致了灾难性的后果。在与研究者的社会融合并似乎阻止了这一概念的发展后,他再次发现自己实际上是他所创造的时间悖论的关键部分,甚至在古代著作中找到了自己的参考。

ChatGPT生成了一个故事,该故事遵循了给定的指导方针,但遵循了更可预测的路径。虽然它很有能力,但它的叙事缺乏克劳德故事所展现的深度和创造性。

GPT-4o制作了一个直截了当的故事,主人公试图通过与过去的查曼分享先进的教义来防止能源危机。然而,回到他的时间线,他发现历史在重复,什么都没有改变。

获奖者:克劳德在创意写作方面获胜。它能够产生更具想象力、细致入微和结构良好的叙事,这使它与众不同,成为需要创造力的任务的绝佳选择。

例如,更容易想象融入社会会如何影响一群研究人员并阻止他们发现一些东西。相反,与chaman分享先进知识对防止能源危机来说意义不大。

总结与分析

当收到一份42页的国际货币基金组织报告时。ChatGPT毫无问题地接受了整个文档。克劳德,另一方面,抛出了一个错误,说PDF太长了。我们把它剪到了31页,这足以在Pro版本中被接受。(免费版本只能分析大约25页。)

撇开局限性不谈,《克劳德3.5十四行诗》对缩短的文档进行了有力的分析,准确地提取了关键点和逐字逐句的引用,而没有出现幻觉——这已经是对《克劳德3》的重大改进,后者容易编造信息。然而,它的引用是模糊的,没有ChatGPT选择的引用那么相关。

ChatGPT在处理整个42页文档时没有截断,给人留下了深刻印象。它提供了更全面的细分,提供了丰富的相关信息。

它使用要点来强调关键要素,然后提供每一节的摘要,这比克劳德提供的方法更有用,克劳德提供了一个没有结构和缺少报告关键要素的摘要。

ChatGPT还展示了一种战略方法,侧重于报告的总结和结论,以有效地提炼关键点。这是在深入分析之前对广泛的研究有一个大致了解的可靠方法。

获奖者:ChatGPT在总结和分析方面处于领先地位。它能够完整处理较长的文档,再加上其全面而战略性的总结方法,使其更适合于学术研究和专业分析任务。

其他功能

Claude 3.5 Sonnet引入了“Artifacts”,这是一项允许用户实时查看、编辑和构建人工智能生成的内容的功能。这种将人工智能输出直接集成到项目和工作流程中的方式增强了用户交互,尤其是与代码的交互。

ChatGPT Plus提供了为特定任务训练自定义GPT的能力,这是Claude目前无法提供的功能。此自定义选项在专业和学术环境中提供了更多的通用性。它还集成了Dall ee 3图像生成器,这对于使用自然语言生成图像非常有用。

获胜者:ChatGPT在附加功能方面获胜。虽然Claude的“工件”功能提供了独特的实时交互功能,但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的特定需求,但GPT可以帮助各种各样的用户。ChatGPT还可以创建图像,这是相对于Claude的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细致的语言使用和高效编码的任务中大放异彩。它掌握和执行复杂指令的能力使它与众不同,尤其是在创造性工作和编码任务中。

ChatGPT证明了它在处理大量文本和进行详细分析方面的勇气。它处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种型号都很有能力。然而,如果你正在考虑升级到付费级别,鉴于其额外的功能集,ChatGPT可能是大多数人的最佳选择。例外的情况是,如果你从事创造性的写作或编码,到目前为止,克劳德是无可争议的王者。

你可以为更适合你特定需求的模型付费,并将另一个的免费版本用于不同的任务。然而,如果你手头拮据,又不是超级用户,那么OpenAI和Anthropic免费提供他们的顶级机型就太好了。

由Ryan Ozawa编辑。

最新 更多 >
  • 1 一个周末在提契诺州的卢加诺举办3场艺术和新技术节(瑞士)

    卢加诺,斯维泽拉,2024年6月12日,柴维尔 今年,卢加诺将与新技术相关的节日数量增加了两倍。经过过去几年的经验,现在是时候为与数字先锋世界相关的不同社区和不同利益提供一些垂直内容了。 2024年6月14日和15日,卢加诺将举行: NFT节:致力于Web3社区,以及各种形式的NFT粉丝; 科技节:关注初创企业、投资者和最新技术创新的世界; WUF:“我们理解未来”的缩写,是一种与最新技术相关的

  • 2 Tether调侃新资产就像旧资产被遗忘一样

    Tether首席执行官Paolo Ardoino在X(前身为推特)上调侃称,Tether准备下周“推出其新型数字资产”。 目前尚不清楚下周将公布哪些数字资产,但我们知道,它们将是这家稳定币巨头推出的一长串数字资产中的最新一笔,其中许多现在基本上已经被遗忘了。 Tether创造的最受欢迎的资产当然是USDT,它与美元价值“挂钩”。然而,它也有与欧元、离岸人民币和墨西哥比索等其他货币挂钩的资产。 这些

  • 3 Bitget 研究院:比特币 ETF 资金持续净流出 zkSync 发币空投

    过去 24 小时,市场出现了不少新的热门币种和话题,很可能它们就是下一个造富机会摘要整体市场都在等待今日晚上美国的 FOMC 会议和 CPI 通胀数据,市场整体较谨慎。其中:造富效应强的板块是: 蓝筹公链板块、ETH 生态项目用户热搜代币&话题为: UXLINK、ZKSYNC、IO.Net潜在的空投机会有:Nile Exchange、Spark数据统计时间:2024 年 06 月 12 日 4:0

  • 4 比特币 (BTC) 为何暴跌?SOL可能是目前市场上最安全的资产?

    比特币下跌了 3%,至每日收盘后 67,320 美元的低点。由于未能维持关键的 69,000 美元支撑位,比特币多头无法阻止因交易所订单簿流动性不足而导致的下跌。前一天,交易资源 Material Indicators 联合创始人 Keith Alan 警告称,出价不足可能预示着 BTC 价格实力疲软。当然,我们这里有一些阶梯式竞标支持,但并不是高度集中——而且,如果我可以完全诚实的话,甚至低至

  • 5 美国现货比特币ETF在主要经济指标之前净流出2亿美元

    6月11日(星期二),美国现货比特币交易所交易基金(ETF)出现2亿美元的净流出,市场正在等待包括CPI和FOMC数据在内的关键经济指标。 此前,周一出现资金外流,结束了创纪录的净流入。 现货比特币交易所买卖基金结束19天流入连胜 根据Farside Investors的数据,Grayscale的GBTC净流出金额最大,总计1.21亿美元。方舟投资的ARKB紧随其后,获得5650万美元。其他ETF

  • 6 微软支持的Mistral AI以60亿美元的估值筹集6.45亿美元

    人工智能初创公司Mistral AI的法国创始人Arthur Mensch出席了2024年5月22日在法国巴黎凡尔赛门展览中心举行的Viva技术展。切斯诺|盖蒂图片社娱乐|盖蒂 随着巨额资金继续涌入人工智能竞赛,法国科技初创公司Mistral AI筹集了6亿欧元(6.45亿美元)的资金。一位未经授权公开发言的知情人士告诉CNBC,该公司周二宣布的这一轮交易对Mistral AI的估值为58亿欧元

  • 7 比特币ETF经历显著外流-最新加密货币新闻

    最近的数据表明,市场对比特币交易所买卖基金的情绪发生了重大转变。2024年6月11日,比特币ETF的每日净流出总额达到2.031亿美元,反映了比特币价值最近的下跌。让我们深入了解比特币ETF现货数据的具体情况。 内容隐藏1比特币ETF数据分析2其他ETF数据揭示了什么?投资者的3个关键见解 比特币ETF数据分析 Grayscale Bitcoin Trust(GBTC)出现了最大

  • 8 Holdstation获得SNZ Capital、Summer Ventures和EVG Ventures对智能人工智能钱包开发的7位数投资

    新闻稿。Holdstation已获得SNZ Capital、Summer Ventures和EVG Ventures的7位数投资,这标志着其智能人工智能钱包发展的一个重要里程碑。第二阶段的战略资本注入将推动Holdstation智能人工智能钱包的发展,将先进的人工智能与简化的区块链交互相结合,重新定义用户如何管理自己的投资组合。 随着账户摘要的实施,Holdstation的用户增长显著,巩固了其作

  • 9 影响力人物杰克·保罗在沃尔玛推出男士皮肤和个人护理系列

    杰克·保罗正在推出一个面向男性的个人护理品牌。提供:W 杰克·保罗正在进入一个新的领域:皮肤护理。这位YouTube网红出身的拳击手周三宣布推出“W”,这是一家针对男性的护肤公司。个人护理系列将推出价格低于10美元的产品,并将在沃尔玛出售。今年夏天晚些时候,亚马逊将推出一条扩展的产品线。Paul告诉CNBC:“我们看到了这个古老过时的类别,在过去20年里,竞争对手一直以完全相同的方式上架。”。“

  • 10 Stability AI发布SD3:最强大的开源图像生成器在HuggingFace中可用

    人工智能领域的领先公司Stability AI刚刚发布了最新一代开源图像生成器Stable Diffusion 3(SD3)。该模型是迄今为止最强大的开源、未经审查、可自定义的文本到图像生成器。 SD3l是在免费的非商业许可下发布的,可通过拥抱脸获得。它也可用于StabilityAI的API和应用程序,包括StableAssistant和StableArtisan。鼓励商业用户联系Stabilit