谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

时间:2024-09-19 编辑: 浏览:(954)

文章来源:AIGC开放社区

图片来源:由无界AI生成

4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。

目前,可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro,支持中文进行提示。

此外,谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,可显著提升模型的稳定性和输出能力。

视频理解展示

「AIGC开放社区」通过Google AI Studio开发平台第一时间体验了一下最新的Gemini 1.5 Pro的多模态理解能力。使用方法非常简单便捷,以下是教程示例。

1)登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Video功能。

2)点击Video后,选择Upload上传视频。

3)由于模型对上传视频的解析速度过慢,所以,这里直接使用了谷歌内置的视频示例。需要注意的是,上传视频不要超过100万tokens。

4)我们使用内置视频示例,然后用中文提问:“介绍一下这部影片讲述了哪些内容。”

5)Gemini 1.5 Pro正在解析,通常只需要几十秒就能完成。

结果已经出来了,这是一部由BusterKeaton 于 1924 年主演并导演的电影《福尔摩斯二世》。

6)我们继续发问,“你能用这个视频写一段600字的影评吗?”大概几十秒后,Gemini 1.5 Pro便生成了影评。

虽然生成的内容无法与顶级影评人的作品媲美。但整体的文章架构、叙述方法以及词汇的准确度是超过很多小白、中级影评人的水平。只需要在这个基础之上进行稍加修改,就是一篇不错的内容。

值得一提的是,用户可以一次性上传多个视频一起解读,这对于视频媒体行业来说很有帮助,可以快速理解长视频内容节省时间。

音频理解展示

我们再试试音频,基本操作与视频差不多。这里我们上传一份英文阅读ESL Podcast的课程。

然后上传MP3格式文件

2)音频比视频解析快了很多很多,这里我们上传的音频有大约12万tokens。

3)开始发问,“总结一下这个音频的内容。”

4)Gemini 1.5 Pro已经精准解读出来了,这个音频是 ESL Podcast 系列课程“Jeff 的一天”的第一课,旨在帮助学习者掌握日常英语词汇。

比较意外的是,Gemini 1.5 Pro还把整个可成的结构、故事内容和学习目标全部都解读了出来,看来Gemini 1.5 Pro还是更懂英文数据内容。

Gemini 1.5 Pro的音频理解,同样支持多个文件一起解读。

Gemini API改进

为了帮助开发人员更好地控制Gemini模型,谷歌对API进行了三个优化。

系统指令:目前可以在Google AI Studio 和 Gemini API 中使用系统指令功能,可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。

在设置系统指令时,用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应,并在用户与模型的整个互动过程中遵循特定准则。

而开发者通过系统指令能定义角色、格式、目标和规则,以引导模型在特定用例中的各种行为。

JSON模式:现在Gemini API 提供了一个配置参数,用于请求 JSON 格式的响应。可以帮助开发者从文本或图像中提取结构化数据。

函数调用优化:开发者可以使用自定义函数并将其提供给AI模型,但模型不会直接调用这些函数,而是生成指定函数名称和建议的参数的结构化数据输出。

该输出支持调用外部 API,然后生成的 API 输出可以重新合并到模型中,从而帮助开发者实现更全面的查询响应。

目前,Gemini 1.5 Pro已经全面开放使用了,有兴趣的小伙伴赶紧去试试吧。

本文素材来源谷歌官网,如有侵权请联系删除

最新 更多 >
  • 1 快讯:OKX宣布面向乐观(OP)代币的硬币保证金永久期货合约上市

    巴哈马NASSAU,2024年5月13日/PRNewswire/-领先的加密货币交易所和Web3技术公司OKX发布了2024年6月13日的最新消息。 OKX宣布面向乐观(OP)代币的硬币保证金永久期货合约上市 OKX今天宣布推出乐观主义(OP)代币的硬币保证金永久期货合约。新的永久期货上市于2024年5月13日UTC上午8:30开始交易,使用户能够以高达20倍的杠杆率做多或做空OP。 这一增加反映

  • 2 清崎与Kinesis坐下来谈论“金钱的进化”

    【新闻稿——英国伦敦,2024年5月13日】 著名商人、畅销书作家罗伯特·清崎(Robert Kiyosaki)是教育系列《富爸爸穷爸爸》(Rich Dad Poor Dad)的作者,他将与安德鲁·马奎尔(Andrew Maguire)一起参加本周的《金库现场》(Live from the Vault)节目。 本周,这位著名的伦敦告密者主持了一场贵金属评论节目,带观众了解当前的经济形势,并解释了每

  • 3 加密货币市场的关键发展-COINTURK NEWS

    在加密货币市场,比特币继续承受抛售压力,同时一些altcoin项目不断突出。Telegram支持的Toncoin因Notcoin空投事件而受到极大关注,专注于人工智能的altcoin项目RNDR继续获得势头。让我们探索一下这些altcoins的未来。内容Toncoin技术分析渲染技术分析

  • 4 Worldcoin能从5.55美元反弹到18美元吗?

    WLD的价格在过去24小时内下跌了5%以上。大多数技术指标都暗示未来几天价格会上涨。 Worldcoin[WLD]在过去几个小时内出现了价格调整,这推动了该代币获得支持。 然而,故事还有更多,价格下跌可能不会持续下去,因为WLD正在重新测试牛市模式。 Worldcoin转为看跌 上周不符合投资者的最佳利益,因为该代币的价格下跌了4%以上。在过去的24小时里,情况变得更糟,代币价值暴跌了5.5%以上

  • 5 “我与黄金连接的故事”讲故事活动在美国举行。

    中国广州,2024年5月13日/PRNewswire/-来自GDToday的新闻报道 当地时间5月11日,美国犹他州议会大厦举行了一场讲故事的活动,以纪念1863年至1869年为建造美国第一条横贯大陆的铁路做出贡献的中国铁路工人。 该活动的主题是“我与黄金连接的故事”,由总部位于中国南方广东省省会广州的英文新闻媒体GDToday主办。该省也是大多数中国铁路工人的家乡。 中国铁路工人的后代以及犹

  • 6 上周回顾:ETH、BOME、HNT 的下跌原因分析

    上周,加密货币市场的波动导致了 1000 亿美元的惊人损失。这种下降反映在全球加密货币市值上,截至撰写本文时,全球加密货币市值下降了 4%,至 2.36 万亿美元。以太坊跌破3000美元第二大加密货币以太坊 ( ETH ) 的价值跌破 3,000 美元大关。ETH、BOME 和 HNT 价格 – 5 月 12 日 以太坊在本周后半段试图进行最后一刻的反弹,但该策略在整周持续的看跌压力下动摇了。与前

  • 7 Meme vs 治理代币 万物皆可模因

    作者:Yash Agarwal 来源:medium 翻译:善欧巴,A16z 的首席技术官最近辩称,迷因币对 "建设者没有吸引力",并且 "如果考虑到外部性,甚至可能是净负面影响"。他将迷因币形容为 "一系列掩盖赌场的虚假承诺","改变了公众、监管机构和企业家看待加密货币的方式",以及 "技术上毫无趣味" 等。与此同时,Chris Dixon 发布了一篇关于该主题更加冷静的文章,强调了美国证券法制度

  • 8 TCL推出全新杜比大气音箱系列,将声音带到全新高度

    加利福尼亚州欧文,2024年5月13日/PRNewswire/-全球最畅销和领先的消费电子公司之一TCL®今天宣布扩大其Q级和s级音箱阵容。TCL继续为消费者创新和升级该品牌的音箱选项,将杜比大气技术添加到其全功能机型中。S级以一种简单的方式增强了家庭影院的设置,而Q级则凭借独特的Ray Danz技术脱颖而出,该技术提供了广阔而包容的声场。 TCL最新的音箱通过两款全新Q级和两款全新s级机型提供丰

  • 9 软银愿景基金3年来首次实现年度收益,增长46亿美元

    在这篇文章9984.T-JP关注你最喜欢的股票REATE FREE ACCOUNT 软银的愿景基金是该公司创始人孙正义的创意,它面临着一系列不利因素,包括利率上升导致的科技股暴跌、严峻的中国市场和地缘政治。高桥健太郎|彭博社|盖蒂图片社 在截至3月的财政年度,软银的愿景基金实现了72.4亿日元(46亿美元)的收益,这是该旗舰科技投资部门自2021年以来首次出现亏损。软银的旗舰科技投资部门愿景基

  • 10 Vantiva在全球交付超过1.25亿台开源RDK设备

    里程碑包括运往世界各地网络服务提供商的RDK宽带和RDK视频设备 巴黎,2024年5月13日/PRNewswire/-全球技术领导者Vantiva(巴黎泛欧交易所:VANTI)今天宣布,自2012年以来,其已售出超过1.25亿台基于RDK的客户驻地设备(CPE)产品,截至2024年,其市场份额有所提高。RDK是一个完全模块化、便携式和可定制的开源软件解决方案,可标准化视频、宽带和物联网(IoT)设