英伟达发布自动驾驶AI“Alpamayo-R1”——加速4级自动驾驶推理能力

Nvidia 于 2025 年 12 月 1 日在加利福尼亚州圣地亚哥举行的 NeurIPS AI 大会上宣布。用于自动驾驶研究的开放推理视觉语言模型“Alpamayo-R1”宣布。

该公司声称这是第一个专注于自动驾驶的视觉语言动作模型。该模型基于 Cosmos 模型系列的 Cosmos-Reason 模型,该模型于 2025 年 1 月首次发布,其他模型于 8 月发布。

Alpamayo-R1是实现4级自动驾驶的关键技术,这意味着在特定区域和特定情况下完全自主。模型可在 GitHub 和 Hugging Face 上找到是。该公司还发布了一本 Cosmos Cookbook,其中包括针对开发人员的分步指南、推理资源和培训后工作流程。

从: Nvidia 宣布推出用于自动驾驶研究的新开放 AI 模型和工具 | TechCrunch

【编辑部评论】

英伟达宣布阿尔帕马约-R1是一款标志着自动驾驶技术重要转折点的车型。到目前为止,自动驾驶人工智能主要基于模式识别进行反应式操作,但Alpamayo-R1「推论」我们将把这种新能力带入自动驾驶。

视觉-语言-动作(VLA)模型是一种将视觉识别、自然语言理解和动作生成集成到一个框架中的人工智能模型。在机器人领域,谷歌DeepMind的RT-2和Figure AI的Helix是代表性的例子。Alpamayo-R1是全球首款专门用于自动驾驶的VLA模型就变成了。传统机器人 VLA 模型侧重于对象操作和人类协作,而 Alpamayo-R1 针对车辆路径规划和决策进行了优化。

该模型最大的特点是「Chain of Causation(因果连锁)推论」重点是它集成了。当人类司机开车时,我们会无意识地做出多层次的推论,例如“这辆车正在减速,所以前面可能有障碍物”,或者“路边有行人,所以他们有可能跳出来。”Alpamayo-R1旨在赋予人工智能这种类似人类的“常识”。

具体来说,该模型逐步分解复杂的交通场景,在每一步进行推理,同时评估可能的轨迹并使用上下文数据来选择最安全的路线。这可能是由于建筑工人站在十字路口、车道被堵塞,或者道路积雪导致能见度较差。在复杂和不可预测的情况下特别有用是。

Nvidia 表示,该型号实现 4 级自动驾驶的关键据说是这样的。 4级是指车辆在特定地理区域和特定情况下无需驾驶员干预即可完全自主驾驶的阶段。 Waymo 和其他公司目前在有限的区域提供 4 级机器人出租车服务,但像 Alpamayo-R1 这样的推理能力对于更广泛的部署至关重要。

重要的是,这个模型作为开源发布这就是重点。它可在 GitHub 和 Hugging Face 上用于非商业用途,允许研究人员进行基准测试并构建实验性 AV 应用程序。 Nvidia 还提供了一个名为 AlpaSim 的评估框架和一个名为 Cosmos Cookbook 的开发人员指南,以加速整个研究社区的进展。

此外,多家公司已经采用了 Cosmos 模型系列,包括 Voxel51、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和 X-Humanoid,并已进入工业实施。

英伟达首席执行官黄仁勋重申了这一做法。“物理人工智能是下一波浪潮”这与该战略完全一致。英伟达在数据中心人工智能 GPU 方面取得了巨大成功,但它将机器人、自动驾驶汽车和工业人工智能等“与现实世界互动的人工智能”视为其下一个增长引擎。

然而,也存在挑战。推理模型的计算成本很高,并且需要针对实时控制进行优化。此外,虽然开源加速了研究,但实际的商业部署需要 Nvidia 硬件(高性能 GPU),这已纳入该公司的商业模式。从本质上讲,英伟达的战略是通过免费赠送软件来刺激对其硬件的需求。

Alpamayo-R1的出现是基于自动驾驶技术。从“模式识别”到“推理理解”演变的历史性转折点有可能是这样。

【术语解释】

视觉-语言-动作 (VLA) 模型
集成视觉识别、自然语言理解和行为生成的人工智能模型。它从图像和视频中获取视觉信息,理解口头命令,并根据这些命令输出物理动作(机器人运动和车辆控制)。它是在机器人和自动驾驶领域备受关注的下一代人工智能技术。

宇宙理性
Nvidia 开发的推理模型。旨在在做出响应之前逐步完成您的决策过程。它是Alpamayo-R1的底层技术,为物理AI开发提供推理能力。

Chain of Causation推论
一种推断链条中因果关系的方法。逐步分解复杂的情况,并在评估每个步骤的因果关系的同时确定最佳的行动方案。它模仿人类驾驶时经历的多步骤思维过程。

4 级自动驾驶(SAE 4 级)
由国际汽车工程师学会(SAE International)定义的自动驾驶分类,允许在特定地理区域和特定情况下实现完全自动驾驶,无需驾驶员干预。有一些限制阻止其在恶劣天气等异常条件下运行。 5级是没有任何限制的完全自动驾驶,而4级是指在有限条件下的自动驾驶。

神经IPS
神经信息处理系统的缩写。全球最大的机器学习和人工智能国际学术会议之一。每年12月举办,展示最新的人工智能研究成果。

强化学习
一种机器学习方法,其中人工智能代理通过反复试验从与环境的交互中学习。优化您的行动以最大化回报。已证实对Alpamayo-R1后训练有效。

物理的AI(Physical AI)
能够与现实世界进行物理交互的人工智能系统的总称。指在物理空间中运行并做出决策的人工智能,例如机器人、自动驾驶汽车、工业机械等。这一概念与传统人工智能形成鲜明对比,传统人工智能仅在数字空间中运行。

GitHub
一个软件开发平台,广泛用于开源项目的代码共享和版本控制。开发者社区的核心人物。

抱脸
共享机器学习模型和数据集的平台。它提供了一个生态系统,人工智能研究人员和开发人员可以在其中发布、使用和共同开发模型。

[参考链接]

NVIDIA 博客 – 在 NeurIPS 上,NVIDIA 推进开放模型开发(外部)
关于 NeurIPS 上 Alpamayo-R1 公告的官方博客。提供推理 VLA 模型的技术细节以及 Cosmos Cookbook 的信息。

Nvidia 研究 – Almayo-R1 研究出版物(外部)
Alpamayo-R1 研究论文页面。包含技术细节、评测结果、实车测试数据。

NVIDIA 实验室 GitHub(外部)
发布 Nvidia 开源项目和 AI 模型的 GitHub 页面。 Alpamayo-R1 和 Cosmos Cookbook 可以下载。

NVIDIA 拥抱脸部(外部)
HuggingFace 的 NVIDIA 官方页面。提供Alpamayo-R1模型及相关数据集。

SAE International – J3016 驾驶自动化等级(外部)
定义自动驾驶六级分类的国际标准。提供从 0 级到 5 级的详细定义。

NVIDIA 新闻室 – Cosmos World 基础模型(外部)
Cosmos 车型系列的官方公告页面。 2025 年 1 月在 CES 上公布的物理 AI 开发平台的详细信息。

[参考文章]

在 NeurIPS 上,NVIDIA 推进数字和物理 AI 的开放模型开发(外部)
发布了有关 Alpamayo-R1 的技术细节、其与 Cosmos-Reason 模型的关系、通过强化学习提高性能、AlpaSim 框架以及招聘公司的信息。

Alpamayo-R1:连接推理和动作预测以实现泛化自动驾驶(外部)
因果链推理与轨迹规划一体化,综合评价细节。在推理、轨迹生成和安全性等多个方面展示了最先进的性能。

NVIDIA 公开提供 Cosmos World 基础模型(外部)
有关 2025 年 1 月发布的 Cosmos 车型系列的详细信息。包含 9,000 万亿代币和 2000 万小时真实世界数据的训练信息。

NVIDIA 自动驾驶 AI 获得类人推理能力(外部)
分析将类人常识判断引入自动驾驶人工智能的意义以及从模式识别到上下文理解的演变。

视觉-语言-动作模型——维基百科(外部)
VLA模型的一般定义、架构以及主要模型的解释,例如Google DeepMind的RT-2和Stanford的OpenVLA。

简单解释 SAE 汽车自动化水平(外部)
SAE国际自动驾驶6级分类详解。介绍Level 4的定义以及Waymo、Cruise等的例子。

NVIDIA 推出 Cosmos 模型,旨在扩展物理 AI(外部)
Jensen Huang 在 CES 2025 上的演讲、物理 AI 市场的战略重要性以及 Omniverse 集成将如何加速工业 AI。

[编者后记]

自动驾驶汽车不仅会“看”,还会“思考”——Alpamayo-R1所指明的方向可能会极大地改变我们交通的未来。人工智能也开始做出人类驾驶员无意识做出的推断,例如“那辆车正在减速,所以前面可能有东西。”您期望自动驾驶汽车有多少判断力?您认为像人类一样具有“常识”的机器有哪些可能性和挑战?为什么不一起思考未来的交通体验,同时观察技术的演变呢? innovaTopia编辑部将持续关注该领域的动态。