微软终于认真开发自己的人工智能了。到目前为止,该公司的人工智能给人留下了强烈的借鉴OpenAI技术的印象,但这一次该公司发布了七个内部开发的模型,涵盖了从文本推理到图像、音频、转录和编码的所有内容。此外,我们还推出了一个新系统,允许公司使用自己的数据开发人工智能并保留其所有权。为什么微软现在决定独立?让我们来解读一下公告的内容及其背后的想法。
2026 年 6 月 2 日,微软 AI 发布了 MAI 模型家族,该模型由内部开发的 7 个新模型组成。主持人是穆斯塔法·苏莱曼。包括推理模型MAI-Thinking-1、用于编码的MAI-Code-1-Flash、用于图像生成和编辑的MAI-Image-2.5、用于转录的MAI Transcribe-1.5、用于语音生成的MAI-Voice-2等。
假设在盲测中 MAI-Thinking-1 优于 Sonnet 4.6。 MAI-Code-1-Flash 拥有 50 亿个活动参数,并与 GitHub Copilot 和 VS Code 集成。 MAI Transcribe-1.5 支持 43 种语言,MAI-Voice-2 支持 15 种语言。
模型是通过 OpenRouter、Fireworks 和 Baseten 提供的。该公司向 Microsoft Frontier Tuning 展示了强化学习功能,并宣布与 Mayo Clinic 联合开发医疗保健人工智能模型。该公司声称使用自己的芯片 Maia 200 实现了 1.4 倍的效率提升。
【编辑部评论】
解读这一公告的关键不在于微软AI排列的七款车型,而在于它们背后的转折点。在接受 VentureBeat 独家采访时,Mustafa Suleiman 透露,他与 OpenAI 的合同大约在六个月前发生了变化,这使他有权使用该公司的研究人员、数据和专有芯片正式追求“超级智能”。长期以来一直满足于转售 OpenAI 技术的微软决定打造自己的 AI 堆栈。
然而,这并不是微软与 OpenAI 断绝关系的故事。投资关系仍在继续,此举不仅仅是“摆脱依赖”。朝着“减少依赖并增加内部堆栈的选择”的方向奠定基础将其视为是准确的。尽管如此,这一公告还是清楚地表明,在幕后,人工智能行业的权力平衡正在争夺领导权,我们应该依赖谁的技术,我们应该独立于谁。
技术方面,我想关注一下旗舰机型MAI-Thinking-1的设计理念。官方公告博文仅将其描述为“中型模型”,但该公司在 Build 2026 主题演讲中表示,它具有稀疏的 MoE 配置,拥有约 350 亿个活动参数和 256,000 个代币的上下文窗口(多个技术报告中称总参数约为 1 万亿个)。在增加总量的同时,缩小实际移动的部分。这种“大而轻”的设计是下文所述的低成本策略的基础。
应仔细阅读基准。这两个数字都是微软自己评估的结果,该公司宣布 AIME 2025 为 97.0%,AIME 2026 为 94.5%,SWE-Bench Pro 与 Claude Opus 4.6 持平。然而,对于官方所说的“比 Sonnet 4.6 更受欢迎”的人类评分,根据报告的不同,盲比的数量在 1350 到 1276 之间不等。在获得第三方再现评估之前,明智的做法是接受这些值作为参考值。
这个消息对领域最实际的影响是在编码领域。从 6 月 2 日起,具有 50 亿个参数的 MAI-Code-1-Flash 已逐步推出到每个 GitHub Copilot 计划中。根据微软自己的评估,SWE-Bench Pro 的性能优于 Claude Haiku 4.5,并且减少了高达 60% 的代币消耗。对于每天使用 Copilot 的开发者来说,这可能是性能和成本上的切实变化。
而我认为本次公告最本质的一点就是“微软前沿调优”的理念。在这个系统中,每个公司都在自己的业务数据和环境中开发自己的模型,将这些知识合并到模型中,并保留模型的所有权。关于其有效性,官方博客称其“与 GPT 5.4 相当,但效率提高了 10 倍”,以针对 Excel 进行调整为例。另一方面,在主题演讲和个人LinkedIn上,还解释了另一个例子,在为麦肯锡量身定制的案例中,质量超过了GPT-5.5,同时将成本降低到十分之一(两个数字均基于微软自己的评估)。
这种“内部独家模式”路线表明竞争的轴心可能正在从“最强大的通用模型”转向“最适合您工作的模型”。尽管在原始模型性能方面落后于其前辈,但微软似乎试图通过提供不同的竞争环境来创造独特的优势:适应企业数据。
我还将谈到风险和道德方面。微软一再声称,它是从头开始接受干净的、经过适当许可的数据训练的,而不是从其他公司提取的,这不仅仅是技术上的自豪感。在训练数据的来源受到越来越严格的法律审查的监管环境中,数据来源本身的透明度正在赢得竞争优势。——从上下文来看,这一呼吁也可以被理解为针对未来监管风险的保险(目前尚未披露是否存在外部审计)。
我们与梅奥诊所在医疗领域的合作不容忽视。该设计将完整模型的所有权留给梅奥诊所,被认为旨在澄清管理敏感临床数据的责任。虽然早期诊断和更复杂的治疗计划的好处是可期的,但这只是预期的效果,而医疗人工智能也是一个错误可能直接导致死亡的领域,因此验证的严格性将继续受到质疑。
从长远来看,这一公告可以被视为将微软“人文主义超级智能”哲学与通过减少对 OpenAI 依赖来增强自身堆栈的商业现实相结合的一揽子计划。我们高举理想的旗帜,脚踏实地,稳步前行,为独立奠定了基础——我觉得正是这种力量让这次演讲如此有趣。明年,快速扩展计算资源和能力的能力可能会受到考验。
【术语解释】
MAI模型家族
它是微软AI内部开发的一系列模型的总称。它具有跨图像、音频、转录、编码和推理的多模态结构。
混合专家 (MoE)
该模型被设计为分为许多“专家”,并且只有其中一些专家会响应输入而被激活。通过保持总参数较大并限制实际移动的部分(活动参数),可以实现性能和计算效率。
有效参数/总参数
在MoE模型中,推理过程中实际使用的权重是活动参数,整个模型拥有的权重总量是总参数。据说前者的MAI-Thinking-1约为350亿,后者约为1万亿。
上下文窗口/令牌
这是指模型一次可以读取的信息量的上限。单位是一个标记(单词或字符片段)。据说 256,000 个令牌相当于大约 600 页文档,但这是一个粗略估计,具体取决于文档的密度和语言。
蒸馏
这是一种使用现有高性能模型的输出作为训练数据来训练另一个模型的方法。微软声称已经从头开始训练了 MAI-Thinking-1,无需蒸馏。
AIME(基准)
这是根据美国高中数学竞赛制定的数学推理评价指标。 MAI-Thinking-1 在 2025 年版中的自我报告值为 97.0%,在 2026 年版中为 94.5%。
SWE-Bench Pro(基准)
它是通过解决实际软件开发问题来衡量性能的高难度评价指标。据了解,即使是很多顶级模型,正确答案率也会大幅下降,被称为衡量生成式AI实际编码能力的标准。
盲评
这是一种人类在隐藏模型名称的同时确定输出的优劣的方法。据称,MAI-Thinking-1的评测是由外部评测公司Surge进行的。
强化学习/强化学习环境(RLE)
它是指通过试错和奖励来优化模型的学习方法以及执行学习的虚拟环境。微软Frontier Tuning的想法是把一个公司的实际运营带入这个环境并调整模型。
数据历史(数据沿袭)
这是指学习数据的来源和处理方式的背景和历史。拥有明确的出处是减少与版权和许可相关的法律风险的一个因素。
玛雅200
这是微软内部设计的人工智能处理半导体。据称,通过模型和芯片的协同设计,实现了约1.4倍的效率提升。
克劳德(十四行诗4.6/作品4.6/俳句4.5)
这些是Anthropic提供的大规模语言模型“Claude”的成绩。 Opus 处于顶部,Sonnet 处于中级,Haiku 处于轻量级,所有这些都被作为 MAI 模型的比较目标。本文中的比较是针对这几代的,此后也出现了更新的版本。
GPT 5.4/GPT-5.5
这是OpenAI大规模语言模型的代名。微软在展示 Frontier Tuning 的效率时将这些作为比较的基础。
人文主义超级智能
微软AI的发展理念是,它应该继续成为服务人类的工具,而不是取代人类。
[参考链接]
微软AI(官网)(外部)
微软AI研究部门此次公布了七款模型。它是官方中心,提供模型列表、技术博客和 Playground 入口。
Microsoft Frontier Tuning(官方页面)(外部)
这是解释本演示文稿核心方法的官方页面,该方法调整模型以适应公司的业务数据和环境。
GitHub Copilot(官方网站)(外部)
它是 GitHub 集成 MAI-Code-1-Flash 的 AI 编码支持服务。
Visual Studio Code(官方网站)(外部)
它是 Microsoft 的免费代码编辑器,其中包括 MAI-Code-1-Flash。
梅奥诊所(官方网站)(外部)
一家与微软联合开发医疗保健前沿人工智能模型的美国医疗机构。
OpenRouter(官方网站)(外部)
一个可以通过通用接口调用多个AI模型的分发平台。提供了 MAI 模型。
Fireworks AI(官网)(外部)
销售高速推理的人工智能模型提供平台。它是MAI模型的提供者之一。
巴斯坦(官方网站)(外部)
支持机器学习模型生产运行的平台服务。被指定为MAI-Thinking-1的提供商。
人择(官方网站)(外部)
这是一家人工智能公司,开发了用于比较的克劳德模型。
OpenAI(官网)(外部)
微软投资的一家AI公司,也是减少依赖的目标。开发GPT系列。
麦肯锡公司(官方网站)(外部)
一家全球管理咨询公司被引用为 Frontier Tuning 成就的一个例子。
[参考视频]
[参考文章]
Microsoft Build 2026:MAI 主题演讲记录(外部)
官方讲座全文将 MAI-Thinking-1 指定为“35B 活动 MoE,256K 上下文窗口”。这用于确认参数数量的来源。
微软 Build 2026 的 MAI 模型:第一方 AI 赌注(外部)
AIME97.0%/94.5%,SWE-Bench Pro 显示与 Opus 4.6 相当。一篇分析文章指出,所有数字均为公司报告的值。
Microsoft MAI-Thinking-1 开发人员指南(外部)
开发商的解释中特别指出,盲测次数为1276次,评估公司为Surge。详细说明规格和基准。
微软推出七种人工智能模型以减少对 OpenAI 的依赖(外部)
它以数字方式展示了竞争格局,例如Anthropic的估值为9650亿美元,OpenAI的估值为8520亿美元,并定位了微软的独立路径。
微软在 Build 2026 上推出七种内部 AI 模型(外部)
一篇文章报告了 1350 次盲比较。这对于检查评估数量与其他媒体的差异很有用。
微软人工智能负责人表示,公司已从 OpenAI 中“解放”出来,以追求超级智能(外部)
对 Suleiman 先生的独家专访,他表示,由于大约六个月前 OpenAI 合约的变化,追求超级智能成为可能。提供最清晰的上下文。
Microsoft AI 推出七种 MAI 模型并与 Mayo Clinic 合作(外部)
转达 LinkedIn 的评论,麦肯锡的调整在质量上超越了 GPT-5.5,成本仅为 1/10。还将组织梅奥合作。
[相关文章]
微软摆脱对OpenAI的依赖,进军超级智能研究——Suleiman领导的新团队成立
这是发布这7款车型的出发点。一篇先决条件文章,描述了倡导人文主义超级智能思想的宣言的各个阶段。
MAI-Image-2-高效官方公告 |微软计划使用两种模型进行图像生成人工智能
该图像模型是上一代MAI-Image-2.5。您可以查看MAI家族追溯的血统。
微软Scout发布——“永远在线”代理改变人工智能和工作新格局
同一Build 2026上宣布的另一项举措。同时还可以阅读有关微软AI战略的相关公告。
Anthropic IPO启动 ─ Claude开发商秘密向SEC提交S-1,超越OpenAI
本文解释中提到的竞争趋势。这对于理解微软独立之路的权力动态将是一个有用的指南。
[编者后记]
这次最困扰我的是“我在工作中开发的专门模型是我自己的。”如果你可以使用你拥有的数据训练人工智能,你希望它做什么工作?
除了看性能数据外,我觉得“该依靠谁的技术,该保留什么?”的问题也会逐渐出现。我也还没有答案。如果我们能从相同的角度一起思考,我会很高兴。
