2026 年 1 月 29 日,Google DeepMind 宣布推出 Project Genie,这是一个实验性研究原型,允许用户创建和探索交互式世界。
将于 1 月 29 日(当地时间)开始向美国的 Google AI Ultra 用户(18 岁及以上)推出,并将逐步扩展到其他地区。 Project Genie 是一款配备 Genie 3、Nano Banana Pro 和 Gemini 的网络应用程序。三大核心功能:世界素描、世界探索、世界混音有。用户可以使用文本和图像创建环境,并实时移动并与之交互。
请注意,2025 年 8 月宣布时引入的“在探索过程中改变世界的提示驱动事件”等高级功能仅限于当前原型的体验范围。
【编辑部评论】
Project Genie 的全面推出是由 Google DeepMind 计划的。通向 AGI(通用人工智能)之路的里程碑就变成了。
世界模型是一个人工智能系统,它可以模拟环境的动态并预测您的行为将如何影响它。此前,谷歌DeepMind一直专注于开发国际象棋和围棋等特定环境下的AI代理。为了实现真正的通用人工智能,一个能够驾驭现实世界多样性的系统至关重要。据说Genie 3定位为垫脚石技术。
值得注意的是,这项技术在短短六个月左右的时间里就从实验室带到了普通用户的手中。 Genie 3 于 2025 年 8 月 5 日在有限研究预览版中发布,当时仅向一小部分学术研究人员和创作者开放。 2026 年 1 月 29 日,Project Genie 开始以每月 249.99 美元的价格出售(按 1 美元 = 150 日元的汇率计算,约合 37,500 日元)。面向 Google AI Ultra 订阅者推出事情完成了。
这个定价高于 OpenAI 的 ChatGPT Pro(每月 200 美元),这表明计算成本很高。生成的世界以 720p 分辨率和 24fps 运行,但会话时间限制为 60 秒。尽管这一限制代表了技术限制,但考虑到实时连续生成一致世界的计算负担,目前这是一个合理的设计决策。
从技术角度来看,Genie 3的真正强大之处在于它的“自回归”方法。与传统的 3D 表示方法(NeRF 和 Gaussian Splatting)不同,Genie 3 逐帧生成世界,并通过记住过去的环境和动作来保持一致性。这“紧急一致性”这使得环境可以维持几分钟。
对游戏行业的影响不容忽视。正如 The Register 指出的那样,这项技术可能会对已经陷入困境的游戏开发商构成新的威胁。另一方面,Unity Technologies于2018年宣布与DeepMind合作,一直在合作开发人工智能研究的虚拟环境和任务。与这一趋势相一致,生成式人工智能的使用也在游戏领域不断扩大。
然而,实际应用之路并不平坦。当前的限制包括不稳定的角色控制、文本渲染问题以及无法准确模拟现实世界的地理位置。此外,2025 年 8 月公告中提到的“探索期间改变世界的即时事件”等功能尚未在原型中实现。
更根本的问题是持续时间。训练 AI 代理需要数小时的连续交互,而当前的 Genie 3 仅持续几分钟。正如 DeepMind 自己承认的那样,要使这项技术真正有用,模拟必须能够持续数小时。
尽管如此,这项技术所蕴含的未来还是令人着迷的。潜在的应用范围很广,例如在教育中探索古罗马的历史学习、在机器人技术的安全环境中培训自动驾驶汽车,以及创意领域中新形式的互动讲故事。
Project Genie 标志着生成式人工智能从“刚刚看到”的内容演变为“经历过”的内容的转折点。延长的持续时间、提高的稳定性以及对创作者的更多控制可能会导致位于游戏引擎和生成视频之间的全新内容管道。
【术语解释】
AGI(泛用人工知能)
通用人工智能的缩写。它指的是能够像人类一样执行各种智力任务的通用人工智能,而不是专门从事特定任务的人工智能。现在的人工智能是专业化的,实现AGI被认为是一个长期的研究目标。
世界模型
人工智能系统可以模拟环境的动态并预测环境将如何演变以及您的行为将如何影响它。它将用于训练人工智能代理和创建交互式环境。
自己回帰的
使用过去的输出作为输入来生成下一个输出的方法。 Genie 3 的工作原理与大规模语言模型 (LLM) 类似,它根据前一帧和用户的操作生成下一帧。
NeRFs(神经辐射场)
神经辐射场。它是一种表达3D空间并从多个2D图像重建3D环境的AI技术。专注于静态 3D 表达。
高斯泼溅
一种快速渲染 3D 环境的技术。尽管比 NeRF 更快,但它们与 Genie 3 的方法不同,因为两者都需要显式 3D 表示。
[参考链接]
谷歌深度思维(外部)
谷歌的人工智能研究组织。以实现AGI为目标,开发了Genie 3和Gemini。
精灵 3 – 谷歌 DeepMind(外部)
精灵3官方页面。介绍通用世界模型的技术细节和示例。
谷歌 AI Ultra – 谷歌一号(外部)
顶级 AI 套餐每月 249.99 美元。提供尖端的AI工具和30TB存储。
开放人工智能(外部)
开发 ChatGPT 的 AI 研究组织。 ChatGPT Pro 的售价为 200 美元/月。
史诗游戏(外部)
虚幻引擎开发公司。 DeepMind 与 Genie 3 集成研究合作伙伴关系。
统一技术公司(外部)
Unity引擎开发公司。探索人工智能辅助关卡设计的可能性。
[参考文章]
Genie 3:世界模型的新前沿 — Google DeepMind(外部)
Genie 3 官方文章于 2025 年 8 月 5 日公布。详细介绍了可以以 720p、24fps 实时生成并保持几分钟一致的技术规格。
Google 的 Project Genie 将提示变成互动世界 • The Register(外部)
关于 Project Genie 技术限制的详细报告,每月发布 249.99 美元,例如 60 秒生成限制和角色控制问题。
谷歌 DeepMind 的 Genie 3 可以动态改变其模拟世界的状态(外部)
与Genie 2的详细对比。Genie 2在360p分辨率下的理论极限为60秒,而Genie 3则达到了几分钟的一致性。
Google 的 Project Genie 可让您生成自己的互动世界(外部)
澄清 Project Genie 不是游戏引擎。使用 Nano Banana Pro 模型解释图像生成功能。
DeepMind 表示新发布的 Genie 3 世界模型是迈向 AGI 的关键里程碑(外部)
引用研究主管的话说,它被定位为“第一个实时交互式通用世界模型。”
DeepMind Genie 3 的前景和局限性(外部)
Genie 3 可以保留记忆长达 1 分钟,而 Genie 2 的记忆时间约为 10 秒。自回归架构的详细解释。
谷歌 DeepMind 的 Genie 3 可能是人工智能一直在等待的虚拟世界突破(外部)
Epic Games 与 Unity Technologies 的研究合作表明可以将关卡设计时间缩短 70-80%。
[编者后记]
“你可以在你想象的世界里漫步”——这种体验每月价值约250美元(约37,500日元,按1美元=150日元换算)的时代已经开始。引人瞩目的是60秒的限制下隐藏着的潜力。实时不断生成的“生活环境”,而不是完美的虚拟世界,预示着一种不同于游戏和视频的新媒体的诞生。
您认为几年后这项技术将如何融入日常生活?我期待与大家一起观看这项被称为通向 AGI 之路的技术将如何改变我们的创意活动。
