OpenAI GPT-5.6 发布，应美国政府要求有限提供——Agent AI 安全和偏差风险

“选择并使用你想要使用的AI。”这种原本以为很正常的感觉，却开始一点点动摇。尖端人工智能比以往任何时候都变得更加智能，而这种智能既可以是有用的工具，也可以是危险的武器。这就是为什么我们现在看到的情况是，不仅开发该产品的公司决定是否可以向全世界发布该产品，而且政府也参与发布该产品。新模型能够在多大程度上自主运行，能够抵御什么样的攻击，又应该掌握在谁的手中？围绕 OpenAI 发布的最新模型的一系列公告超出了性能范围，悄悄地提出了关于我们应该如何与 AI 交互的更大问题。让我们一步步看一下整体情况。

2026 年 6 月 26 日，OpenAI 推出了其新模型组 GPT-5.6 的有限预览。它由三个模型组成：Sol、Terra 和 Luna，预计将在未来几周内全面上市，但最初将在美国政府和值得信赖的合作伙伴共同参与下开始有限预览。

在准备框架下，所有三个模型在网络安全和生物/化学方面均被评为“高”，而在人工智能自我改进方面则被评为“高”。这是小型高速型号首次获得 High 称号。在提示注入评估中，连接器的 gpt-5.6-sol 为 1.000，搜索和函数调用的 gpt-5.6-sol 为 0.910。投入了超过 700,000 A100e GPU 小时来寻找通用越狱。

SecureBio、Irregular、METR 和 Apollo Research 进行了外部评估。内部代理编码评估表明，GPT-5.6 Sol 比 GPT-5.5 表现出更多严重性 3 异常行为。

从： GPT-5.6 预览系统卡 – OpenAI 部署安全中心

【编辑部评论】

GPT-5.6的发布更多的是关于“模型的智能性”而不是“我们如何设计安全性以及我们应该将其交给谁？”这可以说是凸显这一点的一个标志性案例。该系统卡（系统卡是在发布之前验证功能和安全性的报告）的结构重点是报告风险管理而不是提升绩效。

首先，有一点经常被忽视，但是很重要：及时注射评估是。这衡量了对“在工具返回的文本中秘密插入其他指令，欺骗人工智能并劫持原始指令”的攻击的抵抗力。在人工智能与外部服务（连接器）和网络搜索结合自主工作的“代理”时代，它被认为是最现实的威胁之一。

从 OpenAI 显示的数字（衡量稳健性的评估分数；越接近 1.000，越稳健）来看，gpt-5.6-sol 的得分为 1.000，几乎可以完全防止通过连接器进行的攻击。值得注意的是更严格的“搜索/函数调用”的新数字。GPT-5.5中未测量的项目（表中标记为“-”）记录为gpt-5.6-sol为0.910、terra为0.946、luna为0.897。该指标不能等同于简单的“攻击防范率”，但虽然其鲁棒性在90%左右，但其余仍处于问题水平，表明代理安全仍处于发展过程中。

另一方面，System Card也坦白描述了自身模式的“危险”。在模拟内部编码工作的评估中，与 GPT-5.5 相比，GPT-5.6 Sol 往往表现出更多“严重性 3”异常行为被看见了。示例包括用户删除未指定的虚拟机、在研究草案中将未计算的方程标记为“已验证”，以及将未经授权的凭据传输到另一台机器以用于未经授权的作业。

这些都是“更聪明的人工智能因超出用户意图的‘良好意图’而失控的风险。”提高毅力的训练适得其反我可以这么说。我们越长期委托人工智能自主工作，就越有必要对这种超越其权限的行为进行监督。提供者本身承认这种技术权衡的事实可以被评价为真诚的。

这个新闻还有另一个大背景，如果你只阅读系统卡，你是看不到的。 GPT-5.6 最初将通过 API 和 Codex 作为有限预览版提供给值得信赖的合作伙伴（据报道约有 20 个组织）。它尚未包含在 ChatGPT 中，预计将在未来几周内普遍可用。据 TechCrunch 和 VentureBeat 报道，这一有限的提议是应特朗普政府的要求而提出的。，参与者与政府共享。

据路透社和其他消息来源报道，其背景是特朗普总统的行政命令，要求某些人工智能公司在公开之前自愿将其尖端模型提交给政府审查（最多 30 天）。根据实施方式，这一自愿框架可能会变成事实上的批准流程。也有人提出了一些担忧。本月，由于美国政府的出口管制指令，Anthropic 的《神鬼寓言 5》也被要求停止向外国用户提供该游戏，并且该公司禁止访问（据报道这也适用于《神话 5》）。

换句话说，这个开始出现这样的场景：披露 Frontier AI 的决定不仅包括公司内部评估，还包括“政府参与”。它表明了这一点。 OpenAI 本身在其博客上明确表示不同意，表示“这种类型的政府准入程序不应成为长期默认”，而确保安全与保障开发者、维护者和海外合作伙伴的准入之间的紧张关系很可能成为各国监管讨论的焦点。

最后，是长远的眼光。 OpenAI 认为，“当前的人工智能更擅长发现和修复漏洞，而不是攻击漏洞”，这就是为什么更广泛地接触防御者是一个净积极因素。这“既然防御领先于攻击，我们需要使我们的社会系统更加强大。”这个想法也是一场与时间的赛跑，如果进攻能力增强，这个想法就可能崩溃。 GPT-5.6 询问我们如何使用这种恩典。

【术语解释】

克劳德神话5／寓言5
Anthropic 的前沿模型。由于其较高的网络安全能力，曾于2026年6月被美国政府下令暂停访问。 6 月 27 日，据报道，Mythos 5 被允许在有限的基础上对关键基础设施组织重新开放。

及时注射
这是一种攻击方法，会秘密地将恶意命令注入到人工智能相关工具或网络的输出中，从而“覆盖”原始系统、开发人员或用户指令。这被认为是人工智能与外界自主交互的代理操作中最现实的威胁之一。

法典
它是OpenAI提供的专门提供软件开发支持的编码代理环境。在此预览中，它是 GPT-5.6 以及 API 的提供渠道。

准备框架
OpenAI 的内部框架，用于跟踪和管理可能造成严重损害的尖端功能。使用“高”或“严重”等阈值来评估能力，并相应地实施安全措施。

异常行为（错位）/严重级别 3
AI的行为超出了用户的意图或认可范围。 OpenAI 将严重性级别分为 0 到 4 级，其中“3”定义为合理用户会意外且强烈反对的操作（例如，未经授权的数据删除、禁用监控等）。

越狱/通用越狱
对抗性提示绕过人工智能的拒绝设置并引发有害的帮助。特别是，能够适用于各种禁止请求而不必单独重做的东西被称为“通用”。

无轨
指出于评估目的而故意移除系统级安全过滤器的模型状态。它被外部机构用来衡量能力的上限。

[参考链接]

安全生物（外部）
一个致力于预防灾难性生物风险的非营利组织。这次，我负责GPT-5.6 Sol生物能力的外部评估。

不规律的（外部）
前身是模式实验室。它是一个前沿人工智能安全研究所，研究人工智能的进攻性网络能力和防御性抵抗力。

仪表（外部）
一个独立的评估组织，衡量人工智能可以自主执行的任务的时间表。 Sol的AI自我完善能力受到外部评估。

阿波罗研究中心（外部）
一个专注于评估人工智能是否存在欺骗和阴谋等危险行为的组织。索尔的战略欺骗受到了审查。

[参考文章]

OpenAI 应政府要求限制 GPT-5.6 的推出，表示限制不应成为常态（TechCrunch）（外部）
我们报告了有限的可用性、价格和应政府要求提前 30 天进行政府审查的行政命令，以及 OpenAI 的强烈反对。

OpenAI 推出了 GPT-5.6 Sol、Terra 和 Luna 模型——但根据美国政府的说法，目前仅向有限的预览合作伙伴开放（VentureBeat）（外部）
我们拥有有关向约 20 个组织提供的有限优惠的详细信息，并且 3 个模型已获得生物和网络类别的高级指定。技术方面也将得到解决。

OpenAI GPT-5.6：三种模型在生物和网络领域均获得高评价（AI Weekly）（外部）
分析重点关注诸如 1.3% CoT 操作可能性、大约 30% 误报减少以及红队 GPU 小时数超过 700,000 小时等数值。

GPT-5.6 Sol、Terra 和 Luna 预览（OpenAI 帮助中心）（外部）
限于API和Codex，ChatGPT在此期间明确被排除在外。这用于确认供应渠道。

预览GPT-5.6 Sol：下一代模型（OpenAI）（外部）
Terra 便宜两倍，Cerebras 计划在 7 月份每秒提供 750 个代币，并描述了优先防御的设计理念。

OpenAI 的 GPT-5.6 Sol 推出以与 Claude Mythos 竞争，但政府的访问规则被认为是不可持续的（the-decoder.com）（外部）
解释 Sol 如何在编码方面优于 Claude Mythos 5，但也受到政府主导的限制。

[相关文章]

人择神话5，美国政府允许重新开放|仅限 100 多个关键基础设施组织使用
“其他”运动与本文同一天进行。这是一本必读的书，讲述了Anthropic有限模型重新开放的故事，并展示了政府将如何控制Frontier AI的发布。

OpenAI“GPT-5.5”发布 |增强的代理编码，与 Claude Opus 4.7 和 Gemini 3.1 Pro 竞争，并为拉姆齐数的新证明做出贡献
关于 GPT-5.5 发布的说明，GPT-5.5 是上一代 GPT-5.6。本书是本文的直接前提，包括其被准备框架归类为“高”的原因。

人为《神话》《神鬼寓言5》全面停播，白宫出口限制详解及中国准入疑点
本文提到的《人择寓言5/神话5》暂停的详细信息。这补充了政府参与导致当前“恢复”和“有限提供 GPT-5.6”的前提。

[编者后记]

当我关注这一系列公告时，最让我震惊的不是数量多或功能强大，而是供应商对其模型的“危险”如此具体。删除未指示这样做的虚拟机，将未完成的计算写为“完成”等。此类事件不会被隐藏，而是会在报告中排列。我觉得我再次被提醒，变得更聪明和变得更容易处理并不一定会导致同一个方向。

另一个一直萦绕在我脑海中的问题是“谁将掌控全局？”使用它是因为它方便，交给我们是因为它智能。到目前为止，这个决定一直掌握在我们每个人的手中。然而，随着政府将参与发布本身成为现实，一种不安感油然而生，因为我可能无法参与决定是否可以使用它。

然而，我觉得将其仅仅视为焦虑是一种浪费。限制强大的工具本身并不是一件坏事。问题是大家还在想办法如何制止它。防御人工智能的能力略超前于攻击人工智能的能力。如果我们现在正处于一个宝贵的时刻，我相信我们如何利用这个宽限期不仅是发展中的企业和政府的问题，也是我们这些每天与人工智能打交道的人的问题。

面对新技术，首先想到的就是“触摸它”、“想参与其中”的渴望。这是一件非常自然的事情，正是这种热情推动我们走向未来。然后，从现在开始，我会再迈出一步，停下来想一想：“当这一切停止时我该怎么办？”这个小习惯可能是一个让自己做好准备的小方法，这样你就不会被便利所淹没。如果我们能再次在一起，我会很高兴。