Perplexity 宣布“混合推理”——人工智能问题从“我们能做什么？”转变到“我们可以在哪里运行它？”

目前人工智能领域正在悄然进展的是“我们能做什么”的问题的转变。到“我们可以在哪里做？” Perplexity 开发了一种系统，可以将单个任务分解为多个任务，并自动将它们分配给本地设备和云端。其根本目标是同时满足通常难以调和的三个要素：准确性、隐私和成本。 2026年，当芯片能够进行全面推理时，我们将破译实现计算的新去处。

2026 年 6 月 2 日，Perplexity 宣布推出首款混合本地服务器推理编排器，这是个人计算机的下一步。

这会确定每个任务的处理是否应在用户设备上执行或委托给云中的代理，并自动分配每个部分。财务记录、医疗信息和个人文件等敏感数据由设备上的紧凑模型在本地处理，而需要最先进模型能力的处理则在服务器上执行。

该公告是与英特尔联合发布的，相同的独立于模型的工具也适用于其他本地芯片，包括 NVIDIA 的 RTX Spark。支持本地推理的个人计算机将于 7 月上市。

从：数据中心移至您的机器

【编辑部评论】

该公告的发布日期是“2026 年 6 月 2 日”，这是有明确背景的。与此同时，全球最大的计算机贸易展览会之一的Computex 2026正在台湾台北举行，Perplexity在该舞台上首次推出了其新系统。该公司估值200亿美元，首席执行官阿拉文德·斯里尼瓦斯(Aravind Srinivas)与英特尔首席执行官利布·陈(Lipbu Tan)一起出现在英特尔的主题演讲中，展示了他们如何处理高度机密的交易材料。经过本台演示，6月2日在博客上正式发布。换句话说，这是这不是一个安静的博客公告，而是在行业大舞台上采取的举措。就是这样。

您可能对“混合本地服务器推理协调器”一词感到陌生。关键在于，当你要求人工智能做某事时，软件会自动实时决定是在本地执行还是将流程的每个部分发送到云端。即使使用传统的个人计算机，本地文件浏览和服务器上的繁重计算之间也存在责任划分。新系统由关键是系统本身不仅要考虑使用哪个模型，还要考虑在哪里物理运行处理。是。

为什么这有效？以下是 Perplexity 的声明。最智能、最先进的型号价格昂贵且耗电。然而，并非所有流程都需要它。我一开始就不希望敏感数据泄露。那么如果把轻处理和秘密处理分到本地，重处理分到云端，同时解决准确性、隐私和成本之间的冲突。，就是这个想法。请将文章中的“每瓦代币价值”视为一个效率指标，它显示相对于消耗的电量可以完成多少有意义的工作。

支持这一想法的是硬件方面的结构性转变。在同一届Computex上，英特尔认为AI的主要作用将从用于学习的GPU转向用于调度代理的CPU，并推出了用于数据中心的新CPU“Xeon 6+”（开发代号Clearwater Forest）。报告还称，该 CPU 每个机架最多可以运行 150,000 个代理。另一方面，NVIDIA还结合Computex 2026（官方发布日期为当地时间5月31日）公布了适用于Windows的全新超级芯片“RTX Spark”。高达 1 petaflop (PFLOPS) 的 AI 性能和高达 128GB 的集成内存据报道，它的定位是针对苹果M5 Pro/M5 Max。正是因为芯片具备了全面推理的能力，“排序”的讨论才成为了现实。

这里有一个差异，我想冷静地看待。原文强调了模型独立性，称“它是与英特尔一起宣布的，同样的线束也适用于其他芯片，例如 NVIDIA 的 RTX Spark。”另一方面，报道还称，Computex 舞台上展示的功能将暂时仅限于英特尔处理器上的 Windows 应用程序。换句话说“在未来任何地方都适用的设计”和“现在实际使用的范围”是两个不同的东西。那是。这并不夸张，但我希望读者将“概念”与“最初的规定范围”分开。

简而言之，您将能够做的是体验“在自己的机器里拥有自己的数据中心”是。所有不能公开的文件，如财务、医疗、合同等，都可以委托人工智能进行分析和准备。而且，秘密的核心永远不会离开我们的手。据一些报道称，该系统的设计目的是在将敏感处理发送到云端之前征求用户的许可，这是为了回应公司对基于代理的人工智能的数据治理的担忧。

长期影响也不小。原文所触及的“主权”问题就是这样的问题之一，而认为各国不需要建立新的数据中心来将重要数据保留在自己管辖范围内的论点可能是意识到其与数据保护法规（例如日本的个人信息保护法和欧盟的GDPR）的兼容性。减轻建设更加集中的基础设施的压力也可以缓解电力、水和土地方面的社会摩擦。

然而，仅有乐观是不够的。关键是手头的轻量级模型是否能够正确分类哪些内容应该保密，哪些内容应该发送到云端。如果这个把关人犯了错误，不应该发布的信息可能会泄露出去。便利的背后，分拣准确性和透明度成为信任新焦点，是您应该牢记的一点。

最后，换个角度来看，此举不仅仅是 Perplexity 的一次产品发布。没有自己芯片的搜索和编排公司价值重心从“模型”转向“判别计算地点和原因”你可以这样读并下注。具有混合功能的个人电脑预计于 7 月上市。当概念变成真机的感觉时，就轮到我们来判断这个赌注是否成功了。

【术语解释】

混合本地服务器推理编排器
将单个任务划分为更小的部分并自动确定每个部分是应在本地设备还是云服务器上处理的系统。 Perplexity 宣布这是他们的“第一次”。

最高额
每秒万亿次运算是处理性能的单位，表示每秒可以执行多少万亿次运算。它被用来衡量人工智能可以在设备上运行的程度。

RTX Spark
NVIDIA 在 Computex 2026 上推出的一款用于 PC 和笔记本电脑的超高性能芯片（产品名称）。目标是拥有高达 1 petaflop 级别的 AI 性能，并在 Windows 设备上本地运行 AI 代理。

Xeon 6+（开发代号Clearwater Forest）
英特尔为数据中心推出的一款新CPU（产品名称）。假设将同时处理许多代理。

[参考链接]

困惑官方网站（外部）
一家致力于混合推理协调器和个人计算机的人工智能搜索公司的官方网站。包含产品信息和博客。

英特尔官网（外部）
与 Perplexity 合作发布此消息的 CPU 制造商的官方网站。您可以查看 Xeon 6+ 等各个产品的信息。

英伟达官方网站（外部）
发布 RTX Spark 的 GPU/半导体制造商的官方网站。包含有关 GPU 和 AI 平台的产品信息。

NVIDIA GTC 台北亮相 COMPUTEX 2026（外部）
NVIDIA 与 Computex 2026 联合举办的活动的官方页面。提供主题演讲和展览的概述。

苹果官方网站（外部）
有M5 Pro/M5 Max进行比较的制造商的官方网站。包含有关 Mac 和芯片的产品信息。

台北电脑展官网（外部）
发布此公告的展会官方网站。您可以查看活动概要，包括日期和主题演讲。

[参考文章]

Perplexity AI在Computex 2026推出混合本地云推理系统（VentureBeat）（外部）
一篇文章报道称，估值 200 亿美元的 Perplexity 在 2026 年台北电脑展上推出了其首款混合推理编排器。

英特尔认为 Agentic AI 将在 2026 年 Computex 上将数据中心焦点转移回 CPU（Technobezz）（外部）
一篇文章认为Intel将从GPU回归CPU成为主力，新的CPU Xeon 6+最多可以运行15万个代理。

NVIDIA 和 Microsoft 重塑 Windows PC，迎接个人 AI 时代（NVIDIA 式）（外部）
RTX Spark 官方公告。它指定 1 petaflop AI 性能和高达 128GB 的集成内存。

Computex 2026：基于硅的智能世界（英特尔新闻室）（外部）
英特尔官方公告。他演示了与 Perplexity 的混合推理，并谈到了 x86 在数据中心中的作用。

Perplexity Computer增加了在本地和云模型之间分割任务的能力（9to5Mac）（外部）
有文章报道称，Perplexity Computer 将具有本地/云端拆分功能，并将于 7 月上市。

Nvidia在Computex上推出RTX Spark AI PC芯片，得到主要PC制造商的支持（The AI Insider）（外部）
推出 1 petaflop 级别的 RTX Spark。据悉，华硕、戴尔等主要PC厂商将于今年秋季发布搭载该技术的机器。

[相关文章]

困惑计算机──19种AI模型持续发挥作用的多模型自治代理
一篇关于包含云的 Perplexity 计算机的解释性文章，它是这种混合推理的前身。了解19模型并行编排机制。

微星在COMPUTEX 2026上公布完整的AI基础设施战略 |从液冷数据中心到边缘站点
同样是COMPUTEX 2026的另一面。一篇突发新闻文章，整理了从云端到边缘的硬件端AI基础设施策略。

Surface Laptop Ultra 正式发布 |搭载NVIDIA RTX Spark，挑战128GB内存MacBook Pro
正文中提到了搭载RTX Spark的实机详细信息。您可以具体检查接收本地推理的终端的外观。

推出本地首个与 Ollama 兼容的 AI OpenJarvis ─ 斯坦福大学“每瓦智能”挑战
这篇文章直接联系到了本次的核心概念“每瓦价值”。本地优先AI和省电推理的趋势可以得到抑制。

[编者后记]

写这篇文章的时候，我想到了一个问题。问题是，“这到底是人工智能代理吗？”

所有这些产品，包括目前备受关注的Codex、Claude Code、Google的Antigravity等，都是广义上的“代理型”产品。然而，当你往里面看时，就会发现角色是分开的。如果说Codex和Claude Code是自己编写代码的“工人”，那么Antigravity和Personal Computer就类似于将工作分配给多名工人的“现场主管”。

只有个人电脑更进一步。他们不仅试图负责工作内容，还负责决定在哪里工作，例如“我应该使用哪种模型在本地执行工作还是将其发送到云端？”尽管“代理”一词相同，但可以说自治对象的范围更广泛。

我发现有趣的是，虽然每家公司都在谈论“代理”，但他们逐渐开始赋予这个词略有不同的含义。是工人、主管还是主管决定在哪里工作？我相信这个问题的提出方式将成为决定未来AI的标尺。我们将继续关注 7 月份发布的真机在这个规模上会落在什么位置。