我想每个人都曾感受过拥有一个好想法,但距离变成现实还有很长一段路要走的挫败感。 4秒后,我脑海中的画面就出现在我眼前,并开始移动。谷歌此次发布的两款模型,显着缩短了“想法”与“完成”之间的距离。而且价格出奇的便宜。当视频制作这个曾经的专业工具,变成了一个可以轻松尝试的地方,我们的“想做”能拓展到什么程度?首先,我们来看看发布的内容。
谷歌旗下研究部门Google DeepMind于2026年6月30日宣布,图像生成模型“Nano Banana 2 Lite”和视频生成和编辑模型“Gemini Omni Flash”。Nano Banana 2 Lite(gemini-3.1-flash-lite-image)在Google AI Studio、Gemini API和Gemini Enterprise Agent Platform中全面可用,并将逐步推出搜索AI模式、Gemini应用程序等。
文本到图像输出需要 4 秒,每 1K 图像成本为 0.034 美元。 Gemini Omni Flash(gemini-omni-flash-preview)是 Google I/O 上宣布的一个模型,已在 Gemini API 和 Google AI Studio 上开始公开预览。它支持使用文本、图像和视频作为输入的视频生成和交互式编辑,视频输出的价格为每秒 0.10 美元,与 Veo 3.1 Fast 的价格相同。目前的生成时间为 10 秒,两种型号均使用 SynthID 数字水印。
从:
开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建
【编辑部评论】
谷歌发布的这两款模型本身就很出色,但是真正的目的是“结合”。使用 Nano Banana 2 Lite 生成图像并将图像传递到 Gemini Omni Flash 以创建视频。关键点是该流程可以通过单个 API 工作流程完成。
为什么我现在才报告这个?这是一个转折点,生成式AI的竞争轴明显从“高质量”转向“速度和成本”是。 Nano Banana 2 Lite 在 4 秒内输出图像,每 1K 图像成本为 0.034 美元。无论是速度还是价格都比上一代有了显着的提升,这对于以批量生成为前提的开发者和服务商来说将比个人创作者更有效。
请注意,这两种型号处于不同阶段。Nano Banana 2 Lite 已全面上市,而 Gemini Omni Flash 仍处于公开预览阶段。是。如果您在假设规范和约束将来可能发生变化的情况下接受后者,您将避免误判期望。
我还要注意这里的“Lite”这个名字。谷歌将其与 Nano Banana Pro 和 Nano Banana 2 并列为顶级,层次结构允许您根据应用选择质量、速度和成本我安排的。可以说,已经在云基础设施中得到验证的“让客户选择一系列性价比”的策略,也被带到了生成媒体中。
另一款 Gemini Omni Flash 则具有不同的性质。您可以使用文本、图像和视频作为输入来生成和编辑视频,并且它还支持使用自然语言的“交互式编辑”。您只需发出“替换此人”或“改变角度”等口头指示即可重新创建视频。非工程师突然有更多的空间涉足视频制作。这就是原因。价格为每秒视频输出 0.10 美元,与现有的 Veo 3.1 Fast 价格相同。
一旦该技术进入实用阶段,将应用于电商产品介绍视频、室内前后方案、广告创意量产等领域。可以将生产成本和时间降低一个数量级有。事实上,Adobe、WPP等大公司已经宣布提前采用,而且不可忽视的是,它正在开始进入生产线现场,而不仅仅是在想象中。
另一方面,我们也要保持冷静,清醒认识制约因素和风险。 Omni Flash 视频目前只有 10 秒长,并且不支持音频参考和场景扩展。谷歌本身也表示,场景变化时角色的一致性也存在问题。它应该被视为一个真人大小的功能,而不是一个夸张的广告。大概。
更重要的问题是鉴定真伪。两种模型均使用 SynthID 进行数字水印,并且可以使用 Gemini 应用程序或搜索进行验证。随着一代障碍的降低,虚假信息和滥用相似性的风险也相应增加。因此,从监管角度来看,开发此类透明度工具将变得越来越重要。
从长远来看,这一宣布是迈向任何人都可以快速、廉价地创建图像的世界的一步。表达民主化的希望与如何保护可靠信息的挑战总是矛盾的。就我个人而言,我愿意继续关注这一趋势,同时关注双方。
【术语解释】
Gemini企业代理平台
这是Google为企业提供的AI代理建设和运营平台。将生成式人工智能模型纳入业务应用程序并创建大规模使用的环境。
Elo 分数
这是一个最初作为国际象棋技能指标而设计的相对评估系统。在比较人工智能模型时,基于人类评估的胜负被累积并用作量化生成和编辑质量的指标。
延迟
指输入返回结果之前的延迟时间。在本文中,它指的是生成图像或视频所需的时间,越短,速度越快。
1K解像度(1K image)
指宽度约为1000像素的图像。 Nano Banana 2 Lite 的价格按每 1K 分辨率图像计算。
多式联运
指处理多种类型数据的能力,例如文本、图像、音频和视频。 Gemini Omni Flash 的特点是能够输入这些的组合。
对话式编辑
它是一种通过自然语言指令更改已生成的视频和图像的编辑方法。可以口头进行反复修正,无需经过专门的操作。
一般提供(generally available)
这是指测试阶段已经完成,产品正式提供给所有用户的阶段。 Nano Banana 2 Lite 正处于这个阶段。
公开预览
这是一种在正式发布之前,提前向一般开发者发布功能的形式。包括规格和限制可能发生变化的可能性。 Gemini Omni Flash 正处于这个阶段。
合成ID
这是谷歌 DeepMind 开发的一项技术,可在人工智能生成的内容中嵌入数字水印。它以人眼不可见的方式添加识别信息,有助于确定产品的真伪。
交互API
这是一个 API,用于在跨多个回合的交互期间维护会话历史记录和上下文。在本文中,我们将支持累积最多三个连续编辑的系统。
[参考链接]
谷歌人工智能工作室(外部)
开发者游乐场,您可以在浏览器上尝试每个 Gemini 模型。您可以立即尝试这两种模型。
Nano Banana 2 Lite(谷歌DeepMind)(外部)
Nano Banana 2 Lite 官方介绍页面。发布有关高速、低成本设计概念和实施示例的反馈。
Google Cloud 博客(企业公告)(外部)
官方公告宣布这两款机型均已加入Gemini企业代理平台。包括来自实施合作伙伴的声音。
Gemini API 文档(外部)
将每个 Gemini 模型合并到您的开发中的官方文档。您可以查看API的使用方法以及支持的功能。
[参考文章]
谷歌推出用于快速AI图像的Nano Banana 2 Lite和通过API(THE DECODER)用于视频的Gemini Omni Flash(外部)
一篇技术媒体文章,专门解释了两个模型、连续编辑、演示应用程序和 SynthID 的数值。还规定了限制。
Nano Banana 2 Lite 和 Gemini Omni Flash 上市(谷歌云博客)(外部)
官方公告宣布增加 Gemini 企业代理平台。支持一般可用性和合作伙伴声音的主要信息。
谷歌推出 Nano Banana 2 Lite 和 Gemini Omni Flash 机型(Investing.com)(外部)
一篇财经媒体文章,您可以在其中轻松查看两种模型的数据。还列出了部署目标服务的名称。
谷歌推出 Nano Banana 2 Lite、Gemini Omni Flash(Digg)(外部)
一篇将一般可用性和预览版分开的文章。价格大约是上一代的一半,而且还提到了降低延迟。
谷歌推出 Nano Banana 2 Lite 和 Gemini Omni Flash(TechBuzz)(外部)
一篇深入探讨“Lite”的层级策略及其与竞争对手的地位关系的分析文章。补充了市场策略的视角。
[编者后记]
老实说,最让我印象深刻的数字是“4 秒”和“0.034 美元”。只需要几日元,喝一口咖啡的时间里,你脑海中的图像就会出现在屏幕上。您可以将其进一步移动。事实上,在我为它变得更加方便而感到高兴之前,我停顿了一下并想:“这不是一个很大的变化吗?”
这是因为,到目前为止,视频制作一直受到三堵墙的保护:技术、时间和金钱。对于那些想要表达自己的人来说,降低这一障碍绝对是有利的。想要销售产品的人、想要重新设计房间的人、想要讲述故事的人——我们将为他们每个人提供一个强大的工具。这无疑是一个激动人心的故事。
另一方面,较低的墙对每个人来说也意味着较低的墙。在一个任何人都可以快速、廉价地创建看起来与真实事物一模一样的图像的世界中,可能会出现比以往更多的情况让我们停下来思考“这真的发生过吗?”我认为拥有像 SynthID 这样标记和识别产品的系统是解决这一问题的一个答案。便利和风险常常通过同一扇门同时出现。这就是为什么我想培养打开大门的手和看透事物的眼睛。
