什么是图像冲击波?与 World Labs 和 Claude 一起将图像转换为 3D 世界的新技能

“我想再次走过童年的房间。”科技正在以意想不到的速度接近这个愿望。 2026 年 5 月中旬,一款名为“image-blaster”的工具在科技界引起热议。当您输入单个图像时,Claude 会命令 World Labs 和 FAL 等多个 AI 来组装一个您只需 5 分钟即可探索的 3D 环境。在本文中,我们将探讨“捆绑”多个人工智能而不是“使用”它们的新想法。


image-blaster 是一个开源技能组,它使用 Claude 的技能、World Labs 和 FAL 从单个图像生成 3D 环境、声音效果和 3D 网格。开发者是 Neilson Koerner-Safrata(GitHub 用户名 neilsonnn),他是 World Labs 设计团队的成员。

该项目于 2026 年 5 月中旬出现在 GitHub 趋势和黑客新闻中,并且还出现在 World Labs 的官方社区展示中。本文基于同月的存储库内容。

image-blaster 可以在不到 5 分钟的时间内从单个图像生成完全网格化的 3D 环境,并且默认生成动态对象 (.glb、.obj)、静态环境的高斯图 (.spz) 以及环境和物理声音效果 (.mp3) 的 3D 模型。

使用的生成模型是marble-1.1、nano-banana、gpt-image-2、hunyuan-3d和elevenlabs-sfx。默认3D模型生成面数为5万个,生成的产品可以嵌入Unity、Unreal、Blender、Three.js等,使用的语言主要是TypeScript和JavaScript。

从: GitHub – neilsonnn/image-blaster:克劳德的图像到世界技能集。

【编辑部评论】

当我第一次看到 image-blaster 项目时,我对它的连接方式比工具本身更感兴趣。这不是一个独立的生成人工智能。“带控制塔的管道”中,Claude 指挥多个专用模型并将单个图像组装到 3D 空间中。是。

让我添加一些背景。其中的重点公司World Labs是一家“空间智能”初创公司,由斯坦福大学人工智能研究员李飞飞联合创立。该公司的全球模型产品“Marble”将于2025年11月全面上市,image-blaster使用其版本marble-1.1。此外,2026年1月还发布了可从外部应用程序调用的“World API”。 image-blaster 具有捆绑和操作包括此 World API 在内的多个外部服务的机制。

让我们理清那些难以理解的技术部分。 README 中的“Gaussian splat (.spz)”是一种相对较新的 3D 绘图方法,它将空间表示为无数半透明粒子(高斯)的集合。与传统的多边形网格不同,它的特点是能够轻松显示照片般的纹理空间。 image-blaster 自动将移动的“动态对象”导出为网格,并将不可移动的“背景”导出为图案,具体取决于目的。

这里有趣的是角色的划分。空间生成由World Labs完成,3D对象化由腾讯混源3D完成,音效由ElevenLabs完成,图像预处理由单独的图像编辑模型完成。这些服务分为不同专业领域的服务。image-blaster 的本质在于 Claude 将这种分工捆绑为执行步骤的“技能”,这样人类就不必手动连接它们。你可以这么说。

那么你能用这个做什么呢?最大的是“从头开始”压缩 3D 制作所需的时间是。到目前为止,准备背景资产是一个需要专业技能和工时的过程。自述文件包括他童年房间的照片、机器人训练环境,甚至可能的电影拍摄地。如果你能在短短几分钟内获得一个平台,那么你创建游戏、视频、建筑可视化和机器人模拟环境的速度肯定会改变。

另一方面,也有一些事情需要保持冷静。首先,质量。之前的技术验证表明,虽然 Marble 在基于照片的输入方面表现出色,但在插图式输入方面其准确性往往会下降。前提仍然是产品只是一个“起点”,人的接触对于最终的质量是必要的。

第二,成本和依赖性。 image-blaster 需要 World Labs 和 FAL 的 API 密钥,并且图像生成、3D 转换和声音效果的每个外部服务都会产生费用。链接多个商业 API 的结构很方便,但也容易受到定价和规格变化的影响。

第三,存在权利和道德问题。如果您输入实际地点或其他人的照片,该空间可以作为“可步行的 3D 数据”进行复制和分发。如何处理版权、肖像权和隐私等有关现有生成人工智能的争论问题。这次,它将以一个名为“空间”的单位出现。目前,这些规则在训练数据的透明度和生成的 3D 环境的权利所有权方面尚未跟上。

从长远来看,像 image-blaster 这样的尝试3D 流程的横截面从“专家专用的东西”转变为“任何人都可以像文本一样使用的材料”我就是这么看的。世界实验室本身也表达了这样的观点:“3D 将成为空间的通用界面,就像文本已成为软件的通用界面一样。”

不可忽视的是,人类并不是这一变化的唯一受益者。如果我们能够批量生产逼真的虚拟环境,我们就可以为安全训练机器人和自主系统提供无限数量的“练习场”。事实上,image-blaster 的示例中列出的“机器人环境”绝不是事后的想法。从图像创造世界的技术不仅是一种创造性的工具,也是培育即将到来的物理人工智能的基础。——这就是为什么这是我们现在应该密切关注的一步。

【术语解释】

世界模特
一种人工智能模型,可根据图像和文本等输入在内部表示并生成空间本身的结构。与生成句子的语言模型不同,该模型的不同之处在于它创建了“可步行的空间”。

空间知能(Spatial Intelligence)
这个概念指的是人工智能感知、生成和操纵三维空间的能力,而不仅仅是理解平面语言和图像。这是世界实验室的核心主题。

高斯泼溅
一种 3D 绘图方法,将空间表示为无数半透明粒子(高斯)的集合。据说它比传统的多边形网格能够更轻松地再现照片纹理,并以 .spz 等格式导出。

网格(3D 网格)
将三维对象的形状表示为点、线和面(多边形)的集合的数据。它是广泛应用于游戏引擎和3D软件中的标准3D表达。 .glb 和 .obj 是典型的文件格式。

技能(克劳德的技能)
一个定义,总结了具体的工作流程和知识,并让AI助手克劳德执行它们。 image-blaster 使用这种格式来捆绑一系列从图像生成 3D 环境的过程。

世界API
程序从外部应用程序调用世界模型 Marble 的连接端口,由 World Labs 于 2026 年 1 月发布。image-blaster 使用它来生成 3D 环境。

体现人工智能
通过物理身体与环境进行交互的人工智能的总称,例如机器人。它与 3D 环境自动生成技术密切相关,因为它允许在虚拟空间而不是真实环境中进行训练。

[参考链接]

image-blaster(GitHub 存储库)(外部)
本文的主角 image-blaster 的官方存储库。您可以查看源代码、README、安装过程和开发历史。

世界实验室(官方网站)(外部)
一家推广空间智能的初创公司的官方网站。您可以查看世界模型 Marble 的概述、使用示例和技术博客。

世界实验室的大理石(外部)
Marble 使用页面,您可以在其中通过图像和文本创建、编辑和共享 3D 空间。您可以查看免费和付费计划和示例。

fal.ai(官方网站)(外部)
一个允许您通过 API 运行生成式 AI 模型的平台。 image-blaster 使用它来运行浑源 3D。

Hunyuan 3D on fal.ai(外部)
fal.ai上运行腾讯3D生成模型混元3D的页面。解释了兼容的参数和输出格式。

十一实验室(官方网站)(外部)
一家以音频和音效生成而闻名的公司的官方网站。 image-blaster 用于生成环境声音和物理声音效果。

克劳德(人类)(外部)
担任 Image-Blaster 控制塔的 AI 助手 Claude 的官方网站。您还可以从此处安装 Claude Code 的终端版本。

[参考文章]

李飞飞的世界实验室利用 Marble 加速世界模型竞赛(TechCrunch)(外部)
一篇文章详细介绍了 World Labs 如何制作其首款商业产品 Marble(将于 2025 年 11 月全面上市),以及它与竞争产品有何不同。

Hunyuan 3D – AI 3D Model Generation(fal.ai)(外部)
image-blaster 使用的混元 3D 规格页面。它可以生成多达150万个多边形的3D模型,并且还指定了输出格式。

宣布World API(世界实验室)(外部)
2026 年 1 月发布的 World API 公告文章。它可以从外部应用程序生成 3D 世界,并且还提到了机器人应用程序。

Marble:多模式世界模型(世界实验室)(外部)
宣布 Marble 全面上市的官方公告。我们将解释如何从各种输入生成 3D 世界并以多种格式导出。

World Labs通过新的Marble模型阐述了对世界模型的愿景(TechTalks)(外部)
一篇解释 Marble 技术背景的文章。我们总结一下Gaussian splat的机制以及与Genie 3在设计理念上的差异。

[相关文章]

World Labs 推出首个商业 3D 世界模型“Marble”——从文本和图像生成可编辑的 3D 环境
一篇解释 Marble 本身的文章,image-blaster 使用它来生成空间。这与本文最为密切相关。

Anthropic为Claude AI添加“技能”功能 |加速企业人工智能工作流程
这篇文章从渐进披露的机制出发,深入探讨了图像冲击波的基础——克劳德的技能功能。

腾讯发布“混源世界-Voyager”人工智能模型,可从单张照片生成3D世界
一篇文章分享了image-blaster用来生成3D模型的混元技术以及从单张图像创建3D的想法。

[编者后记]

说实话,一开始我读到它的时候心里想的是,“这是另一个新的 3D 工具吗?”但是,当我继续读下去时,吸引我注意力的不是每个模型的性能,而是将它们编织成一个流程的想法。

从“使用”高级人工智能的时代到“指挥”多个人工智能的时代——我觉得这种转变被浓缩为一个名为 image-blaster 的小项目。你想和你所拥有的世界一起转变成什么样的世界?如果你不介意的话,请告诉我你的想象力。