新的克劳德AI Sonnet模型能击败ChatGPT-4o吗？

时间：2024-09-20 编辑： 浏览：(45)

由前OpenAI研究人员创立的领先人工智能研究公司Anthropic昨天宣布推出Claude 3.5 Sonnet，这是Claude AI家族中最新、最先进的模型。这一重大升级紧跟着OpenAI的GPT-4o发布，这是一种原生的多模式大型语言模型（LLM），最近在LMSys聊天机器人领域占据了榜首。

Claude 3.5 Sonnet被定位为一款中档车型，介于Haiku和Opus之间，Haiku是一款专为高效任务设计的小型车型，Opus是一款为Anthropic付费版提供动力的高端车型，每月售价20美元。目前，Haiku和Opus只提供3.0版本，这使Sonnet 3.5成为他们在功能、知识和效率方面的最佳模型。

Anthropic声称其新模型在几乎所有合成基准中都优于GPT-4o，尤其是在使用多镜头提示技术时——本质上提供了不止一个例子。

这些综合基准衡量模型在不同领域的性能。通过设置标准数量的条件和测试，可以获得定性变量的定量值。换言之，这些基准并没有说哪个模型看起来或更擅长一项任务，而是以可衡量的方式说明了一个模型有多好。

就性能而言，Anthropic表示，Claude 3.5 Sonnet的运行速度是之前顶级车型Claude 3 Opus的两倍，提供了更多的动力，而成本仅为其五分之一。这使得它成为复杂任务的理想选择，例如上下文敏感的客户支持和需要与模型进行大量来回交互的专业任务。

它的创作者表示，与前代相比，它在理解细微差别、幽默和复杂指令方面也有了显著的进步。

Claude 3.5 Sonnet还提供先进的视觉处理和理解能力。Anthropic说，它特别擅长解读图表和从不完美的图像中转录文本。现在，该公司的顶级模型可以理解视觉提示的上下文，而不仅仅是描述事物。这使其在多模式能力方面与ChatGPT和Reka直接竞争。

例如，我们给克劳德提供了一张地图，并询问我们在那个地方可以做什么。它发现这张地图是芝加哥的，并给了我们一些相关的建议，比如使用公共交通工具而不是出租车，或者参观威克公园、林肯公园和海德公园。

该模型还提供了高级编码功能。根据Anthropic提供的相关工具，它可以独立编写、编辑和执行代码，并进行复杂的推理和故障排除。此功能可有效地简化开发人员的工作流程并加快编码任务。

Claude 3.5 Sonnet引入的一个新功能是“Artifacts”。这允许用户实时查看、编辑和构建Claude生成的内容。它将人工智能创建的输出直接集成到项目和工作流程中，使其在与代码交互时特别有用，并为Claude提供了比ChatGPT或Reka等传统聊天机器人更完善的用户界面。

Anthropic预计将在今年晚些时候发布Haiku和Opus版本的Claude 3.5。如果Sonnet能够挑战GPT-4o，Opus可能会成为未来GPT迭代的有力竞争对手，例如假设的GPT-5。

Claude 3.5 Sonnet vs.ChatGPT-4o

总的来说，这两种型号都展示了令人印象深刻的功能，但在各种任务中相互竞争时，它们的表现如何？让我们来探究一下他们在编码、创意写作和专业任务方面的表现。

易用性和可访问性

Claude 3.5 Sonnet目前在处理大量用户流量和扩展交互方面存在一些限制。与付费版本相比，免费版本的Claude为用户提供了更受限制的体验，具有更小的令牌上下文和更少的可用提示。如果用户分析长文档或使用代码，则尤其如此。

ChatGPT的免费版本为用户提供了更慷慨的代币和提示分配，允许更长、更复杂的交互，而无需付费升级。OpenAI也提供“Plus”订阅，但在被要求升级之前，需要更长的时间才能达到限制。

获胜者：ChatGPT赢得本轮比赛。它的免费版本提供了更大的容量和可访问性，对于那些不愿意或无法支付高级人工智能服务费用的人来说，它更方便用户。克劳德的方法似乎是为了鼓励用户升级到付费级别，这可能会对一些用户造成障碍。

编码功能

我们通过让两个模型创建一个游戏来测试克劳德的编码能力。然而，我们没有要求复制可能成为训练数据集一部分的已知游戏，而是提出了一个测量两名玩家之间反应时间的游戏的想法。

提示：我想创建一个游戏。两个玩家在同一台电脑上玩游戏。一个控制着字母L，另一个控制字母A。我们有一个用线除以二的域。每个玩家控制50%的场地。控制A的玩家控制左半部分，控制L的玩家控制右半部分。

在一个随机的时刻，直线将向左或向右移动。正在失去阵地的玩家必须尽快按下按钮，以防止队伍再次移动。完成后，队伍将保持原位，玩家将不得不等待，直到队伍在随机时刻开始移动到随机位置。

最终控制0%屏幕的玩家输了，游戏结束。用Python或HTML5编写。你认为效果更好的那个。

克劳德3.5十四行诗表现出色。它不仅按照规定提供了游戏，而且还主动将基本但功能性的图形界面与视觉提示结合起来，使游戏更容易理解。

克劳德迅速完成了这项任务，在不到10秒内展示了增强的编码能力。

ChatGPT还按照给定的规范创建了游戏。然而，生成任务需要更长的时间（近45秒），并且没有包括文本线索等额外功能，使游戏更容易理解。

此外，游戏的节奏要慢得多，这违背了反应游戏的目的——“游戏结束”弹出窗口并没有说明谁赢了。

获胜者：克劳德3.5十四行诗获胜。它能够快速生成更全面、功能更丰富的代码，包括图形界面等未经提示的附加功能，这表明它具有卓越的编码能力。

此外，事实证明，它的“工件”功能非常方便，可以在聊天机器人的界面中测试代码，而无需将代码复制并粘贴到外部工具中——这就是ChatGPT的工作原理。

创造性写作

我们要求两位模特根据一个特定的想法创作一个虚构的故事。我们想测试这些模特的创造力，他们的故事有多丰富和引人入胜，以及他们对创意作家的整体表现有多好。

促使

写一篇关于何塞·兰兹的短篇小说，他是一位2150年的时间旅行者，穿越回1000年。确保你的叙述富含生动的描述性语言，无论你选择什么，何塞的文化背景和身体特征都被真实地描绘出来。

你故事的核心应该围绕着时间旅行悖论，以及试图解决或改变过去的问题以改变当前时间线的徒劳。强调具有讽刺意味的是，未来之所以如此存在，正是因为过去就是它。尽管何塞有意影响1000年的事件，但他所采取的行动注定会发生，因为这些行动是2150年存在的必要条件。这个悖论的实现是故事中的一个关键时刻。

克劳德3.5十四行诗的叙事展现了语言的自然流动和引人入胜的结构。人工智能巧妙地融入了时间旅行悖论等复杂概念，创造了一个丰富而微妙的故事，并承担了创造性的风险。

在它的版本中，主人公试图阻止一个数学概念的发展，这个概念在他那个时代导致了灾难性的后果。在与研究者的社会融合并似乎阻止了这一概念的发展后，他再次发现自己实际上是他所创造的时间悖论的关键部分，甚至在古代著作中找到了自己的参考。

ChatGPT生成了一个故事，该故事遵循了给定的指导方针，但遵循了更可预测的路径。虽然它很有能力，但它的叙事缺乏克劳德故事所展现的深度和创造性。

GPT-4o制作了一个直截了当的故事，主人公试图通过与过去的查曼分享先进的教义来防止能源危机。然而，回到他的时间线，他发现历史在重复，什么都没有改变。

获奖者：克劳德在创意写作方面获胜。它能够产生更具想象力、细致入微和结构良好的叙事，这使它与众不同，成为需要创造力的任务的绝佳选择。

例如，更容易想象融入社会会如何影响一群研究人员并阻止他们发现一些东西。相反，与chaman分享先进知识对防止能源危机来说意义不大。

总结与分析

当收到一份42页的国际货币基金组织报告时。ChatGPT毫无问题地接受了整个文档。克劳德，另一方面，抛出了一个错误，说PDF太长了。我们把它剪到了31页，这足以在Pro版本中被接受。（免费版本只能分析大约25页。）

撇开局限性不谈，《克劳德3.5十四行诗》对缩短的文档进行了有力的分析，准确地提取了关键点和逐字逐句的引用，而没有出现幻觉——这已经是对《克劳德3》的重大改进，后者容易编造信息。然而，它的引用是模糊的，没有ChatGPT选择的引用那么相关。

ChatGPT在处理整个42页文档时没有截断，给人留下了深刻印象。它提供了更全面的细分，提供了丰富的相关信息。

它使用要点来强调关键要素，然后提供每一节的摘要，这比克劳德提供的方法更有用，克劳德提供了一个没有结构和缺少报告关键要素的摘要。

ChatGPT还展示了一种战略方法，侧重于报告的总结和结论，以有效地提炼关键点。这是在深入分析之前对广泛的研究有一个大致了解的可靠方法。

获奖者：ChatGPT在总结和分析方面处于领先地位。它能够完整处理较长的文档，再加上其全面而战略性的总结方法，使其更适合于学术研究和专业分析任务。

其他功能

Claude 3.5 Sonnet引入了“Artifacts”，这是一项允许用户实时查看、编辑和构建人工智能生成的内容的功能。这种将人工智能输出直接集成到项目和工作流程中的方式增强了用户交互，尤其是与代码的交互。

ChatGPT Plus提供了为特定任务训练自定义GPT的能力，这是Claude目前无法提供的功能。此自定义选项在专业和学术环境中提供了更多的通用性。它还集成了Dall ee 3图像生成器，这对于使用自然语言生成图像非常有用。

获胜者：ChatGPT在附加功能方面获胜。虽然Claude的“工件”功能提供了独特的实时交互功能，但ChatGPT的自定义训练选项提供了宝贵的灵活性。确定更有价值的功能将取决于用户的特定需求，但GPT可以帮助各种各样的用户。ChatGPT还可以创建图像，这是相对于Claude的另一个优势。

结论

Claude 3.5 Sonnet在需要创造力、细致的语言使用和高效编码的任务中大放异彩。它掌握和执行复杂指令的能力使它与众不同，尤其是在创造性工作和编码任务中。

ChatGPT证明了它在处理大量文本和进行详细分析方面的勇气。它处理和综合大量信息的能力使其成为学术研究和专业分析的强大工具。它还提供了更慷慨的免费访问。

两种型号都很有能力。然而，如果你正在考虑升级到付费级别，鉴于其额外的功能集，ChatGPT可能是大多数人的最佳选择。例外的情况是，如果你从事创造性的写作或编码，到目前为止，克劳德是无可争议的王者。

你可以为更适合你特定需求的模型付费，并将另一个的免费版本用于不同的任务。然而，如果你手头拮据，又不是超级用户，那么OpenAI和Anthropic免费提供他们的顶级机型就太好了。

由Ryan Ozawa编辑。

新的克劳德AI Sonnet模型能击败ChatGPT-4o吗？

Claude 3.5 Sonnet vs.ChatGPT-4o

结论

友情链接