即使 iPhone 用国产 AI 也别惊讶,因为 Gemini 能做的也不多

时间:2024-09-20 编辑: 浏览:(65)

文章来源:不客观实验室

图片来源:由无界AI生成

作者|陆

邮箱|xiaoyu@pingwest.com

上个月,彭博社消息称苹果正在与 Google 进行谈判,希望将 Gemini 集成的 iPhone 当中,为 iPhone 的软件提供 AI 相关的新功能。把新系统的核心功能“外包”给第三方,这种做法非常不苹果。

其实苹果自己也在 AI 上做了不少投入,比如在消息传出的同期,苹果发布了自研 MM1大模型论文,这是一个最高拥有30B 规模的多模态 LLM,但苹果迟迟没有公布公测时间,也没有对外宣布任何上线计划。据知情人士接触到苹果内部团队后了解,团队认为自家的大模型与主流的 GPT4、Gemini 相比“不具备竞争力”,才开始寻找第三方合作商。

或许在6月即将举行的 WWDC 2024上,苹果会公开自研模型的进展与第三方厂商的合作计划,毕竟届时需要对所有用户和开发者展示 iOS 18的核心卖点。而 iOS 18被苹果内部誉为史上升级最大的一个操作系统版本的原因,就是苹果宣称 iOS 18上的 Siri 将会真正的成为用户的“私人助理”。

如果该合作确认落地,那由于合规问题,苹果需要在国内找一家公司进行合作,而不是直接使用 Gemini。

据了解,苹果此前曾三家公司洽谈合作 AI 大模型,其分别有百度的文心一言、阿里的通义千问、月之暗面的 Kimi,但目前概率最大的还是百度,毕竟在三星最新一代的 S24 系列产品上,大陆以外发售地区的 AI 合作方也是 Gemini,而大陆则是以百度、美图为首的一众中国大模型公司。

Gemini 在手机上能做什么?

为了了解目前 Google 在手机上能够实现哪些AI功能,我们找到了一台 Google Pixel 8 Pro,这是 Google 目前唯一能够运行 Gemini Nano 端侧大模型的机器,可是在体验之后,我们发现目前 Gemini 目前的大多数功能都十分依赖网络,端侧模型 Gemini Nano 能够做的事儿十分有限。

刨除因为中文系统语言设定暂不开放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以为用户提供八大核心功能:

一.魔法修图

在 Google 相册中点选“编辑”按钮,你就可以在左下角发现一个彩色的“魔法修图”图标,选择后用户就可以对照片中想要编辑的内容进行框选,框选后你不仅可以进行消除,还可以进行缩放处理。但需要注意的是,每张图片在处理之前一定要上传到云端的 Google 相册进行“备份”,并且在图片处理的过程中需要保持联网。

图源:品玩 LU

选择擦除后,大模型会对擦除的主体后面的画布进行“想象”并生成补充内容,并给出4张反馈供用户选择。在该步骤下,AI 需要识别图片中的物体,并学习该物体的大概轮廓,对应的在数据库中进行比对并给出补充。

图源:品玩 LU摄

可以看到,将图中女人删除后,Gemini 对香港的红色出租车的细节补充还是比较到位的。

你也可以将画面中的主体进行缩放,这个功能非常适合在景点合影时,修正人物不够突出的构图效果。

图源:品玩 LU

二、“魔法换天

在没有主体的风光照中,你也可以依靠 Gemini 对照片进行不同“时空”的转换,比如这张维多利亚港的风光照,我们点击魔法修图按钮后,可以看到 AI 判断我们可以针对天空、日落、风格化、和水进行四个大方向的调整。

图源:品玩 LU 摄

这个功能非常类似小米手机上很出名的“魔法换天”,不得不说日落时分这张做的还蛮有感觉的。

图源:品玩 LU

水面的修改就差了点意思,修改后的这张照片拍摄视角仿佛我站在水里……

图源:品玩 LU

风格化的本意,是 Google 根据照片生成一张场景相同但不同风格照片,但 Gemini 直接把维多利亚港变成了田野……

三、音频橡皮擦

这应该算是本次 Google Pixel 手机“ AI 化”之后,我个人觉得唯二能体现 AI 效果的功能。在该功能下,Gemini 能够将一段视频中的的声音进行分层,并且选择性保留。

图源:品玩 LU

如果你是一个Vlog拍摄者,在拍摄例如展会等视频素材时,就可以将展览周围的人声和噪音隔绝,只保留拍摄者自己的声音,然后配上一段合适的音乐,会给你的剪辑工作省下不少的时间。

四、最佳照片

这个功能简单来说,就是在拍摄合影时可以将多张照片中大家各自最完美的“脑袋”,凑成一张完美的照片,再也不用担心拍照时有人低头、有人闭眼的情况。

图源:品玩 LU

五、AI 壁纸

Google 在手机端其实也提供了“生成图片”功能,但把它隐藏在了壁纸程序中,在这里,你可以选择不同主题开始创作一个专属于你的壁纸。

图源:品玩 LU

你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的 AI图片并不能直接保存到相册分享给别人。

六、视频增强

之所以把这个功能放到最后,是因为从实用角度出发,它是 Google Pixel 8 Pro 升级 AI 之后,提升最翻天覆地的一功能。

视频增强功能可以让用户拍出夜景更加明亮、画面抖动更小、取消远端光学虚化、增加HDR+效果的,最高4K 30帧的视频画面,Gemini在视频拍摄完成会进行短暂的机内计算,最终合成一个 AI 认为最完美的画面效果。

图源:品玩 LU

七、即圈即搜

在相册中长按底部状态栏横条,用户就可以调出 Google 的即圈即搜功能,当用户圈选图片中的某些内容后,系统就会通过 Google 搜索引擎匹配对象,给到一个答案。

图源:品玩 LU

但我认为与其说这是 AI 功能,不如说是图片搜索的一个全新入口。

八、语音备忘录转文字

顾名思义,Gemini 可以将文本内容同步生成文字稿,目前该功能支持印地语、德语、意大利语、日语、法语、繁体中文、英语、西班牙语共8个语种。

图源:品玩 LU

然后呢?

然后就没了……这几乎是你在中文系统环境下能够体验到的全部 AI 功能,其中实际应用 Gemini Nano 的端侧 AI 功能就只有语音转文字这一个,剩下就连 AI 壁纸生成都需要依靠联网完成。

可以说 Google Pixel 8 Pro 所有的核心 AI 功能点,都集中在了 Google 相册这个 App 上,且主要依靠“端云协同”,无网络环境下的 Pixel 8 Pro 可谓是一点都不智能。

在下载了Gemini 独立 App 之后,用户可以让它替代 Google 语音助手,在自然语言处理能力上更加出色,不过并不能够和其他手机下载 Gemini App 后拉开明显的使用体验。 

和百度、美图合作的国行版 S24,在 AI 功能上做得怎么样?

除去花哨且没用的“文案优化”、“文生图”这些 AI 功能之外,国产手机厂商其实已经逐渐在手机的 AI 体验上做出了不错的落地功能。

在同样没法将 Gemini 落地的国行三星 S24 系列来说,三星 AI 主要的功能点体现在“通话实时翻译”、“即圈即搜”、“魔法修图”这三个核心功能。

除去通话实时翻译之外,“即圈即搜”和“图片重构”我们在上文的 Google Pixel 8 Pro 上均已体验到,只不过 Pixel 用的大模型是 Gemini,而国行三星则是由百度、京东和美图提供的定制功能。

即圈即搜这个功能两者最大的不同,并不是技术能力,而是搜索源。

Gemini 的资料库是所有可以在 Google 上搜索到的网页,比如这张著名视角的坚尼地城,Google 给出的了如携程、zFrontier装备前线、X、微博、instagram等网站上相近视角的信息。

图源:品玩 LU

而百度的资料库只有百度百科,我们用同一张照片在三星上进行搜索,由于百度百科的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案——城市街道……

图源:品玩 LU

最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准的时候。因为这个搜索的大前提,是搜索的物品要在京东售卖,否则京东就会强行为用户匹配一个相近的商品,导致大多数时间都是“驴唇不对马嘴”。

不过,当搜索的内容在百度百科有相近角度的图片素材时,百度的搜索功能相对于 Google 就会更加准确一些,比如中央电视塔百度就可以很精准的识别出来,而 Google 智能识别出大致的位置在玉渊潭公园附近。

图源:品玩 LU

当然,虽然地标性建筑的搜索百度做的不错,但在京东链接上三星依旧没让我失望,这次它给的推荐是格力前置净水器……干得漂亮京东。

图源:品玩 LU

在“魔法修图”功能上,美图的能力和 Gemini 还是略有差距,我们用同样的一张照片分别在 Google Pixel 8 Pro 和三星 S24 Ultra 上进行图片重构,得出的效果确实是Gemini 更加自然。

图源:品玩 LU

并且让我非常不理解的就是,在人物消除之后三星 S24 Ultra 一定要在图片左下角显示一个“内容由 AI 生成”,让人瞬间没有任何分享欲望。可以确定的是,目前其他的手机厂商的 AIGC 消除都不会强制打上这行水印,所以绝不是因为法律合规问题导致的,完全是三星的“自作聪明”。

总结

虽说在照片编辑能力和搜索能力上国内的技术提供方已经已经给出勉强追赶上 Gemini 的解决方案,但苹果做产品的思维和其他厂商是完全不同的,搭载 iOS 18的新 iPhone 要做到的,绝不只是 Google Pixel Gemini AI 功能的“拙劣复制”。

从 Siri 刚刚发布开始,乔布斯对 Siri 语音助手的定义就不是单纯的搜索工具,而是个人智能助理。

从苹果自研基于 Ajax 的聊天机器人服务就能看出,目前苹果最看重的,其实是 Google Gemini 基于自然语义的对话能力,而不是我们上文提到在Google Pixel 8 Pro 上实现的那些“工具类”功能。

理想状态下,如果 Siri 接入 Gemini,那用户真的就可以把 Siri 当成一个聊天机器人,系统会学习用户的生活轨迹、使用手机的习惯、家和公司的位置等多重信息,智能作出判断。

举个例子:当 Siri 通过时间、地理位置、语气、声纹等信息判断用户可能在酒吧喝醉了,就会在和你对话的过程中帮你调取如 Uber、滴滴这类线上打车软件,叫一辆从当前位置到家的车,并且通过 AI 助理打电话告诉司机可能乘客处于醉酒状态。

这些例如从当前位置打车回家、AI 助理与司机通话等功能拆分开来,目前的 AI 大模型助手都已经可以实现,但如何将一整套流程完整的、顺畅的“串联”起来,是新版 Siri 需要着手解决的问题。

相较于更加工具项的百度文心大模型,其实字节系的豆包 AI 智能助手在自然语义的沟通能力上“更胜一筹”,因为只有让 Siri 听起来更加像一个真人,用户才有跟它沟通的欲望。

想想看,你向往的 AI 助理,是电影《Her》里面的体贴温柔、声音略带沙哑的斯嘉丽约翰逊呢?还是一行行冰冷的文字呢?

最新 更多 >
  • 1 大新闻工商银行居然给比特币点赞了需要远离的两个项目

    方向社区——我们将为您提供有价值、有意思的币圈资讯。 作者:毕须涨新闻详情:  中国工商银行最近发布的报告大力赞扬数字货币的优势。报告称,比特币就像数字世界的黄金,而以太坊则被描述为“数字汽油”,为Web3应用提供能量。报告还提到,人们的创造力是数字货币种类和应用迅速增长的推动力,这与历史学家尤瓦尔·诺亚·哈拉里的观点相吻合。VanEck的数字资产专家马修·西格尔甚至称,这份报告是工商银行给比特币

  • 2 加密货币分析师确定5种Altcoin可供购买,这可能是一个不错的选择

    加密货币分析师Altcoin Sherpa最近概述了五种Altcoin,它们可以为加密货币投资者和交易员提供重大收益。他指出,尽管许多其他代币看起来像“垃圾”,但这些硬币目前看起来“相当坚固” 五个值得关注的Altcoin 在X(前推特)的一篇帖子中,Altcoin Sherpa提到Injective、Wormhole、JasmyCoin、Stacks和Toncoin是目前看起来很强大的Altco

  • 3 随着Cardano和Ethena持有者寻找下一个最佳利润选择,Raboo狂潮汹涌!

    在加密货币生态系统中,像Cardano和Ethena这样的许多硬币目前正在经历熊市,这影响了许多投资。这些硬币的投资者和持有者被迫开始考虑转向其他硬币,以便他们能够盈利并弥补当前价格下跌造成的损失。 在寻找最适合购买的硬币和下一个利润选择时,投资者和持有者认为拉布是一个很好的投资选择。再加上预测,当它在主要平台上上市时,可能会飙升10000%,成为2024年最好的投资硬币之一,目前拉布正在经历的价

  • 4 BitDelta的Trade-a-Thon:用交易开启交易季

    新闻稿。作为其不断努力发展一个充满活力的交易员和精通加密货币的人社区的一部分,BitDelta正在发起另一场交易比赛,总奖金为50000美元。 活动时间:2024年6月10日至6月24日 该竞争对现有用户和新用户都开放,排名前15的交易员将有机会赢得50000美元的份额。 以下是参加比赛需要做的事情: 如果您是BitDelta的新手,请注册并获得验证。完成基本的KYC。在您的现货钱包中至少存入5

  • 5 Shiba Inu在过去7天里损失了14%——痛苦会重演吗?

    Shiba Inu(SHIB)可能面临自己的灭亡,因为分析师预测其为期一周的价格将继续下跌。这枚因与可爱的Shiba Inu犬种有关而闻名的迷因币在过去七天里贬值了近14%,引发了人们对其未来的担忧。 来源:Coingecko 空气中弥漫着熊信号 SHIB常用于衡量市场情绪的技术指标闪烁着红色。相对强弱指数(RSI)和货币流量指数(MFI)目前分别为38.27和35.21。虽然这些价值表明该资产

  • 6 金融大师Bill Miller IV表示,比特币“仍被严重低估”

    金融专家兼经验丰富的投资者Bill Miller IV,CFA,CMT,Miller Value Partners董事长兼首席信息官在其最新的博客文章《为什么我还在比特币上下注》中重申了他对比特币的乐观立场。Miller是Miller Value Partners的董事长兼首席信息官,也是传奇投资者Bill Miller III的儿子。Miller表示,从全球资本和治理角度来看,比特币仍处于长期转

  • 7 “医药兄弟”Martin Shkreli在DAO诉讼后被勒令停止分享吴唐家族专辑

    布鲁克林的一名联邦法官暂时命令臭名昭著的“制药兄弟”马丁·什克里里立即停止播放吴家族独一无二的专辑《少林往事》。这一举动是在该唱片的现任所有者加密货币团体PleasrDAO周二对什克里里提起诉讼后做出的。 PleasrDAO和Shkreli将于本月晚些时候在法庭上会面,就这起诉讼进行辩论。该诉讼指控,Shkrelli保留了他之前拥有的专辑副本并为在线观众播放,这违反了联邦法院的裁决。 根据美国地区

  • 8 加密货币交易员在两个月内从3000万美元变成1700万美元,损失1300万美元

    一位加密货币交易员和前最大的Ethena(ENA)赌注持有者已投降,损失1300万美元,大部分已实现。随着恐惧情绪的蔓延,这位投资者宣布了一个1700万美元的头寸,该头寸的初始投资约为3000万美元。 值得注意的是,该交易员在4月5日至4月10日期间从币安提取了4笔500万ENA,建立了自己的头寸。根据Lookonchain对X的一份报告,这些收购导致2324万ENA头寸,价值3000万美元。每枚

  • 9 英国玩家的最佳非Gamstop赌场网站

    如果你正在寻找非Gamstop赌场网站,你已经找到了正确的位置!这些赌场提供了传统英国网站无法提供的自由,包括更少的限制、更多样的游戏选择和更好的奖金。我们到处寻找,为您带来最棒的游戏,Instant Casino是其中的佼佼者。但不要只相信我们的话——深入我们的列表,看看每个网站都能提供什么。无论你是一个普通玩家还是一个认真的赌徒,这里都有适合每个人的东西。 不在Gamstop上的10个最佳赌场

  • 10 欧盟表示,作为中国提高电动汽车关税的一部分,特斯拉可能会获得特殊关税

    在这篇文章TSLA关注你最喜欢的股票REATE FREE帐号 2024年5月6日,SpaceX和特斯拉首席执行官、X的所有者埃隆·马斯克在美国加利福尼亚州比佛利山庄的比佛利希尔顿酒店举行的米尔肯会议2024全球会议上发表讲话。David Swanson |路透社 作为欧盟提高中国电动汽车关税决定的一部分,特斯拉可能会对其在中国生产并进口到欧洲的汽车征收特别计算的关税。周三,欧盟执行机构欧盟委员