“可以编写代码,阅读极长的文本,并理解图像和视频。”我们将以任何人都可以轻松使用的形式分发具有所有这三个功能的人工智能。中国MiniMax宣布的新型号“MiniMax M3”就是这样一台贪婪的机器。不过,发布日期尚未到来,业绩数据也尚未由公司公布。我们将以易于理解的方式解释期望和注意事项。
MiniMax中国于2026年6月1日发布了新模型“MiniMax M3”。该公司将其定位为首个结合三种能力的开放权重模型:编码和代理性能、100万个令牌的上下文长度以及原生多模式支持。在基准测试中,SWE-Bench Pro 的得分为 59.0%,Terminal-Bench 2.1 的得分为 66.0%,SWE-fficiency 的得分为 34.8%,KernelBench Hard 的得分为 28.8%,MCP Atlas 的得分为 74.2%。
一种称为“MiniMax Sparse Attention”的新方法用于扩展上下文长度。 API 在 platform.minimax.io 上提供,MiniMax 代码也已发布。模型权重和技术报告将在约 10 天内发布(截至 2026 年 6 月 3 日未发布),512K 或以下代币的标准使用量将在发布后 7 天内享受 50% 的折扣。
从:
MiniMax(官方)(@MiniMax_AI)|MiniMax M3介绍(X投稿)
【编辑部评论】
中国上海MiniMax发布了新的AI模型“MiniMax M3”。当我听到这个消息时,引起我注意的并不是业绩数据本身。“我宣布我将透露体重。”。
开放权重意味着以任何人都可以下载的形式分配模型的参数(通过学习获得的大量数字集合)。如果把它比作烹饪,那就像是交出菜谱和准备好的食材,而不是出售完成的菜肴。由于您可以在自己的服务器上运行它,因此您不必泄露机密信息,并且可以自由地修改它以适合您的公司。
该技术的核心是一种称为“MiniMax Sparse Attention (MSA)”的新方法。传统人工智能的弱点是句子越长,计算量按长度的平方增加就越多。例如,如果你让一个孩子读10倍长的文本,简单的计算将需要100倍的努力。 MSA 消除了这种蛮力,仅选择最密切相关的点进行计算。
因此,MiniMax 解释说,在处理 100 万个代币(大约相当于几本书)时,每个代币的计算成本已降至上一代 M2 的 1/20,处理速度根据情况分别提高了 9 倍和 15 倍以上。不仅可以“阅读”长文本,能够廉价而快速地阅读在实践中是有效的。。
有一个地方我想在这里停留一次。此次被广泛报道的几乎所有基准数据都是 MiniMax 自己测量和发布的。据称,它在衡量编程能力的SWE-Bench Pro上得分为59.0%,超过了GPT-5.5和Gemini 3.1 Pro。这对应于“制造商的标称值”。第三方的独立核查才刚刚开始,因此单从表面上看还为时过早。
事实上,我觉得MiniMax本身披露不利数据的事实是相当有诚意的。在模型自主训练 AI 的 PostTrainBench 挑战中,M3 的得分为 0.37,低于 Opus 4.7(0.42)和 GPT-5.5(0.39)。我很欣赏这次演讲不仅仅关注一个人的专业领域。
那么这项技术会带来什么改变呢?演讲中所举的例子都很有说服力。 M3单独工作了大约24小时优化NVIDIA的GPU程序,据称将硬件性能提升了9.4倍,从7.6%提升到71.3%。人工智能默默地完成人类专家需要几天时间才能完成的工作正在成为现实。
从积极的角度来看,这对于中小型开发团队和实验室来说是一股顺风。如果有更多高性能模型可以随时运行,而无需依赖昂贵的商业 API,选择和价格竞争将会扩大。代币计划的定价从每月 20 美元(约 3,200 日元)起,个人也能负担得起。
另一方面,我想作为“联系人”与我的读者分享一些担忧。如果重量公开,则有可能会发布不带安全装置的修改版。自动化桌面操作的能力很有用,但如果落入坏人之手,它也可能成为自动化攻击的工具。便利和危险总是相伴而行。。
从监管角度来看,也存在不容忽视的问题。来自中国的高性能模型在世界各地使用的情况可能会与各国的数据管理和出口管制框架产生摩擦。在这个阶段,我们会问“它会在哪里使用、用于什么目的”,而不是“谁在哪个国家制造的?”我认为讨论正在发生转变。
从长远来看,本次公告将“人工智能领导力从少数大公司转向更加分布式的世界”趋势的里程碑话虽这么说,我接受了。然而,在撰写手稿时(6 月 3 日),权重尚未发布,GitHub 注释仍然是“Coming(即将推出)”。真正的评估将在大约 10 天之内向公众发布,经过世界各地的开发者拿起并独立验证后得出。我认为这是一个值得追究的案例,包括寻找答案。
【术语解释】
开放重量
一种分发格式,其中经过训练的模型的“权重”是公开的,任何人都可以下载它们并在自己的环境中运行它们。独特之处在于他们不只出售成品,而是赠送全部内容。截至2026年6月3日,MiniMax M3的重量尚未发布,预计10天内发布。
参数(重量/重量)
模型通过学习获得的大量数字。公开权重的问题在于是否公开人工智能的知识和判断的内容。
代币
AI处理句子时的最小单位。它对应于一组单词或字母,您可以输入的标记越多,您一次可以处理的信息就越多。
上下文长度(上下文窗口)
AI一次可以读取并保存的输入长度。 M3的“100万代币”相当于几本书,可以一次处理大量材料和整个代码。
极小极大稀疏注意力(MSA)
构成M3核心的计算方法。这改变了传统计算量按文本长度的平方增加的方法,只选择最密切相关的部分进行计算,从而提高了处理长文本的成本和速度。
多式联运(本地多式联运)
能够处理多种类型的信息,例如不仅是文本,还包括图像和视频。 M3 被称为“原生”,因为它从学习过程的一开始就通过结合图像和视频进行训练,而不是事后才想到。
基准
基于常见任务衡量人工智能性能的指数。它用于比较数字,但结果因测量者和环境而异,因此有必要检查来源。
SWE-Bench Pro
通过让学生解决实际的软件开发任务来衡量编码和解决问题的能力的基准之一。据说M3在这里记录了59.0%。
火车后长凳
衡量一个模型是否能够自主训练其他人工智能的挑战。 M3 的得分为 0.37,低于 Opus 4.7(0.42)和 GPT-5.5(0.39)。
比较模型(GPT-5.5/Gemini 3.1 Pro/Opus 4.7)
说明时用于性能比较的另一家公司的尖端模型。指依次由 OpenAI、Google、Anthropic 开发的代表性 AI。
[参考链接]
MiniMax(官方网站)(外部)
介绍 MiniMax 人工智能模型、产品阵容和使命的公司的一般联系点。
MiniMax新闻(官方新闻)(外部)
您可以汇总研究成果和产品更新的官方公告,并查看与M3相关的主要信息。
MiniMax 开发者平台 (API)(外部)
一个供开发人员通过 API 使用每个模型的平台。它充当费率计划和技术文档的门户。
最小最大(GitHub)(外部)
公共模型和工具存储库以及权重和技术材料发布的中心。
英伟达(官方网站)(外部)
说明中出现的GPU(例如Hopper)开发的主要半导体公司的官方网站。
[参考文章]
MiniMax M3:前沿编码、1M上下文、原生多模态(MiniMax官方博客)(外部)
官方公布主要信息,包括所有基准值、费用、权重发布时间表等。
MiniMax-AI/MiniMax-M3(GitHub 存储库)(外部)
README 是“M3 is Coming”,可以确认截至 6 月 3 日重量尚未发布。
MiniMax 发布采用 MSA 架构的 MiniMax M3(MarkTechPost)(外部)
最详细的技术文章,涵盖MSA、所有基准值、1/20的计算成本等。
MiniMax首次推出专为长时间且复杂的编码任务而构建的AI模型(SCMP)(外部)
上海MiniMax的公告是根据1/20的计算要求和100万个代币的扩容而组织的。
MiniMax M3:挑战GPT-5.5的中国开放重量模型(Pasquale Pillitteri)(外部)
虽然显示了 59.0% 等数字,但该公司警告说,这是制造商的官方数值,尚未进行独立验证。
MiniMax推出开放权重模型M3(RuntimeWire)(外部)
除了公告摘要之外,这篇文章还简要总结了发布时的定价措施,例如 7 天 50% 的折扣。
[相关文章]
MiniMax M2.5隆重登场——挑战小参数、高效率、开放重量的前沿模型(内部)
本文介绍该公司最新一代的 M2.5。主题是“小体量x效率”,在香港上市,和M3对比一下,就能看到政策的演变。
MiniMax-M1,中国人工智能行业的后起之秀——利用闪电注意力技术,成本效率提高30%(内部)
解释M1的注意力机制Lightning Attention。与 M3 的 MSA 相比,我们可以追溯注意力机制两代人的演变。
[编者后记]
这种“公开权重”的举动可能是人工智能逐渐从少数大公司的领地走向掌握在我们手中的过程中的一步。如果你有一个可以自由使用的高性能人工智能,你想委托它做什么?
虽然您可能会对这种便利感到兴奋,但有些人可能也会因为“任何人都可以修改它”而感到有点犹豫。在重视这些期待和焦虑的感觉的同时,我想和您一起关注这项技术的未来。
