Devin再次震撼谷歌!但却是以被质疑造假的方式...

时间:2024-09-23 编辑: 浏览:(105)

作者:小岩

编辑:彩云

我们常说有人的地方就有江湖,就会存在炒作,扒皮和虚伪。没想到,到了人工智能这里,也是一样。

4月9日,一位自称有35年软件工程师经验的网络博主卡尔逐帧复现了人工智能软件师Devin的演示视频,并据此提出4点质疑。他认为Devin所展示的编程能力存在一定欺骗性,并且“所处理的任务并非随机,而是演示者精心选择的刻意呈现”。

这个Devin极其特别,被称为“全球首个AI人工智能软件师”,它被质疑造假,这件事足以震惊整个硅谷,乃至全球AI领域。

细扒全球首个AI程序员的上线经过...

我们先来了解一下Devin的来历。

Devin是由Cognition Labs于今年3月12日发布的一项AI编程产品,它最大的宣传点是“全球首位AI工程师”。

主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。具体来说有6大功能:端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;自主查找并修复bug;训练和微调自己的AI模型;修复开源库;为成熟的生产库做贡献;超强学习能力,实时补足知识和能力短板。Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题。

这个数据看似平平无奇,但其实已经超过了此前所有AI大模型的成绩。要知道,目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。

Cognition Labs始终没开放公测,但陆陆续续给出了一些内测名额。耐人寻味的是,很多人在当时上手体验过了,还给出了很高的评价。譬如热衷AI的沃顿商学院教授Ethan Molick试过后就大大赞赏了Devin,认为其新颖的实时交互方式是最值得关注的。他要求Devin开发一个解释“创业公司融资中的股权稀释”的网站,随后透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。

被认为是炒作!所谓专业实力,不过是“自导自演”。

可反转就这么毫无预兆的出现了。

在Cognition官网发布的长达1分50秒的演示视频里,Devin只需一句指令,就能实现端到端地处理整个开发项目。视频中还表示,它具备自主学习新技术,端到端构建和部署应用,自主查找以及修复代码问题等方面的能力。此外。,Devin还可以按照用户需求同时执行多步骤工作流程,程序员们可以实时观察其进度,发现错误时,跳出指令就能修正。

但博主卡尔却站出来质疑,认为这些宣传是不实的。Devin在操作过程中看似修复了许多问题,但这些问题很多都是Devin的“自导自演”。他认为,在上述演示视频的2.936秒处,屏幕左上角显示“他们搜索过这个任务”,这意味着演示视频中Devin处理的任务并非随机,而是演示者选择的,甚至还出现了“自己现写bug然后当场修复”的骚操作。

除此之外,Devin还有很多其他的槽点:譬如号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,简直是在做无用功。或者看起来在修复bug,但是这些bug毫无意义,因为真正的人类程序员根本就不会犯那种错误。还有些时候,Devin就是在做没有意义的事情,很多事情简单两步就能搞定,但它却花里胡哨的一顿操作,把简单的问题复杂化。

至于Devin修改代码的真实水平,也只能说是一言难尽。在演示视频中,Devin花费了足足6个小时才完成了任务,而这些内容,博主卡尔仅用了半个多小时就完成了。

大瓜激起千层浪!专业人士普遍认为:博主的质疑有理有据。

博主卡尔的质疑在圈内引起了极大的热度和热烈的讨论,这件事在推特和YouTube的热度居高不下,成为了网友们争论的焦点。

一个月前,Devin的诞生成功引起了整个AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背后所承载的影响力也是深远的。要知道,Devin背后的公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

Cognition AI背后的团队成员共10人,核心团队共有3人,分别是Scott Wu,Steven Hao和Walden Yan,团队非常年轻。全体成员共拥有10枚国际信息学奥林匹克竞赛(IOI)金牌,很多成员在青少年时期也参加过信息学国际奥林匹克竞赛等。在发布“全球首个AI程序员Devin”这一信息后,Cognition AI备受外界关注。公开资料显示,此前,Cognition AI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。一旦造假事件落下实锤,所能带来的后坐力无疑是巨大的。

对于博主卡尔的质疑,网络上的口径大多是站在了博主一边,很多网友都对Devin的造假嗤之以鼻。有人还调侃,“Devin至少掌握了看起来很忙的技巧”,很多专业人士也认为卡尔的质疑有理有据。

仔细复盘一下,大家会发现Devin和Cognition AI的疑点早已存在。直到今天Devin 都没有开放使用,只能通过邮箱提交申请。所以,外界对Devin的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价,很少有人有机会可以对其进行真正的体验和测评。

所以,我们有理由相信,从呈现出的结果来看,Devin的确有虚假炒作,过度包装的嫌疑。如果是头部巨头发布新产品新工具,诸如微软Copilot这样的,都会提供充足的上下文。Devin显然没有做到,甚至连对程序的逻辑理解都不到位。

但从另一个角度来说,AI程序助手的发展经历阵痛和挫折在所难免,我们不能因此就质疑整件事情的意义。Devin的功能固然被虚假夸大了,但这并不能否认AI编程的发展趋势。AI程序员的存在确实可以协助人们独立完成简单的开发工作,甚至可以脱离一名真正程序员的帮助,能减少大量不需要创新的重复劳动,例如批量修改代码的命名风格,代码的依赖关系等。程序员们依然需要各类代码辅助工具的帮助,这是大势所趋。

最新 更多 >
  • 1 OSL 宣布战略性拓展领导团队

    (香港,2024年8月5日) – 香港唯一专注数字资产的上市公司 OSL 集团(863.HK)旗下持牌数字资产交易平台 OSL 数字证券有限公司 今日宣布扩展其管理团队,以推动公司加速进入下一个成长阶段。此举将助力公司最新的全球扩展计划,满足不断攀升的市场需求。 即日起,崔崧先生将出任 OSL 数字资产有限公司CEO。崔先生在网络科技领域拥有二十余年的丰富经验。他曾在Bybit、房多多(Nasda

  • 2 门头沟再次流出7亿美元但是比特币并未大跌、抛压消化即可大涨

    链上数据显示,倒闭多年的加密货币交易所Mt. Gox 今(21)日再度转移大笔资产,向新地址发送了价值超过7 亿美元的比特币。这笔交易发生在今晨7 点半左右,多达13,265 枚比特币(约7.09 亿美元)从Mt. Gox 钱包被发送到以「1PuQB」开头的地址,目前尚不清楚该地址属于哪家负责执行赔付的交易所。截至写稿时,这笔资金仍未进一步转移至他处。有别于以往,MtGox 这次转移资产的消息曝光

  • 3 爆炸Memecoin Pacmoon迁移到索拉纳,重新命名为军队

    爆炸模因币Pacmoon(PAC)在以太坊二层扩展网络上推出不到四个月后,正在迁移到Solana。正如推特宣传视频所揭示的那样,此举将使代币更名为ARMY。 根据Pacmoon的官方网站,鼓励用户连接他们的Blast钱包,输入他们的Solana地址,然后烧掉他们的PAC代币,以空投ARMY代币——汇率为1 PAC兑换10 ARMY。 这需要在8月14日之前完成,因为Solana ARMY代币将在

  • 4 BNB经历了艰难的一周,因为价格下跌引发了创纪录的清算——现在该怎么办?

    BNB的价格仍在400美元左右。RSI显示,BNB仍处于强劲的熊市趋势。 币安币[BNB]最近经历了明显的低迷,反映了更广泛市场的下跌,其价格连续六天下跌。 这种长期下跌导致了BNB最高的清算量之一,这表明其持有人面临着严重的市场困境。 币安在关键区域以下崩溃 BNB的衰退始于7月31日,最初跌幅超过2%。随着价格的下跌,价格跌至576美元左右。 这标志着持续下跌期的开始,连续六天,BNB的价值下

  • 5 Elacity与Particle Network和Beatfarm合作,将简化的Web3带给音乐超级粉丝

    [新闻稿-新加坡,亚洲,2024年8月9日] Elacity正在与Particle Network和BeatFarm合作,为音乐超级粉丝创造一种更直观、更便捷的方式,让他们使用去中心化技术与他们最喜欢的艺术家互动。此次合作旨在简化音乐行业内内容的访问和交换。 通过将Particle Network的钱包抽象堆栈与Elacity的平台集成,用户将享受简单的入职体验。此外,由于Particle Net

  • 6 比特币鲸鱼在崩盘期间大惊失色-最新加密货币新闻

    区块链数据分析平台Santiment显示,在8月5日和6日市场大幅下跌期间,比特币鲸鱼交易量飙升至4月以来的最高水平。在价格下跌期间,持有10到1000比特币的钱包迅速积累,导致领先的加密货币跌至5万美元以下。 内容隐藏1破纪录的交易2年长的鲸鱼是如何反应的?3个关键要点 破纪录的交易 Santiment的数据显示,在价格暴跌期间,有28319笔比特币交易超过10万美元,573

  • 7 字节跳动在中国推出OpenAI的Sora竞争对手“Jimeng AI”

    字节跳动凭借名为Jimeng AI的最新软件进入了人工智能视频生成市场,该软件可以从文本生成视频。此次发布使TikTok的母公司字节跳动与其他科技公司和市场新进入者直接竞争。 Jimeng AI是一种文本到视频生成模型,在OpenAI于今年2月发布Sora后流行起来。该应用程序在7月份为Android发布后,最近在苹果商店推出。 中国公司推出竞争性的文本到视频模型 OpenAI首席技术官Mira

  • 8 8月份最值得购买且价格低于 1 美元的4种加密货币!

    尽管昨天市场低迷,但今天一些代币的价值有所上涨。这些代币通过持续发展和战略合作伙伴关系继续受到关注。它们的性能和技术卓越性在今天我们将它们列入1 美元以下最便宜加密货币购买名单中发挥了重要作用。与此同时,在市场复苏的背景下,投资者继续寻求具有成本效益的市场切入点。一些投资者希望在加密货币价格仍然较低时获得有前景的加密货币。本文列出了投资者应该关注的加密货币。4种最便宜的加密货币,低于 1 美元这种

  • 9 卡玛拉·哈里斯和唐纳德·特朗普在Polymarket上就谁将成为下一任美国总统达成一致

    唐纳德·特朗普(Donald Trump)和卡玛拉·哈里斯(Kamala Harris)现在在Polymarket上并列,投注者给予他们入主白宫的同等几率。特朗普主题的模因币在过去一个月也大幅下跌。 前总统唐纳德·特朗普在白宫竞选中以明显领先于民主党人的优势开始了选举周期。现在,随着乔·拜登总统下台,卡玛拉·哈里斯成为该党候选人,这种领先地位已经不复存在。 (P

  • 10 纽约法官批准FTX和Alameda以127亿美元的和解协议偿还债权人

    美国地区法官Peter Castel已敲定127亿美元的和解协议,要求破产的加密货币交易所FTX及其姊妹公司Alameda Research赔偿前者的债权人。 这一决定是与美国商品期货交易委员会(CFTC)达成和解的一部分。 法官批准127亿美元和解 Castel法官于8月7日提交的批准书结束了CFTC发起的长达20个月的诉讼。 该文件要求FTX Trading和Alameda共同向遭受损失的人支