“使用一部智能手机进行 33 种语言的高质量离线翻译”的未来正在变得越来越现实。 2026年5月21日,腾讯旗下浑源团队发布了全新的翻译AI模型家族“Hy-MT2”。有3种尺寸可供选择:1.8B、7B、30B-A3B(MoE),最小型号仅为440MB。据称,根据其自身评测,其性能全面优于微软翻译、字节跳动豆宝等商业翻译API。这次,我们将仔细研究这些技术点以及它如何改变我们的翻译体验。
2026年5月21日,腾讯混元在HuggingFace和ModelScope上公开了多语言翻译模型族“Hy-MT2”的模型权重和代码。同时,评估翻译中遵循指令能力的基准“IFMTBench”也已发布。 Hy-MT2有1.8B、7B、30B-A3B(MoE)三种尺寸可供选择,根据腾讯官方的描述,它支持33种语言之间的翻译(支持的列表包括繁体中文、粤语、藏语、维吾尔语等方言和少数民族语言)。对于设备端部署,AngelSlim 的 1.25 位量化据称可将 1.8B 模型的存储需求降低至 440MB,并将推理速度提高 1.5 倍。
在腾讯公布的基准测试中,据报道7B和30B-A3B在快速思维模式下的表现优于DeepSeek-V4-Pro和Kimi K2.6,而1.8B模型总体上优于微软和豆宝的商业API。腾讯Hy正式合作WMT26视频字幕翻译任务。
从:
GitHub – Tencent-Hunyuan/Hy-MT2
【编辑部评论】
解读此消息时首先要记住的是,Hy-MT2 并不是“让通用的 LLM 来翻译”;从一开始就专门为翻译任务设计的专用模型这就是重点。随着通用机型规模不断变大,腾讯混元刻意缩小自己的领域,在不同的轴上竞争:轻量化和高品质。
该系列包括 3 种尺寸:1.8B、7B 和 30B-A3B。末尾的“30B-A3B”表示MoE(Mixture of Experts)结构,根据通用命名约定(Qwen等采用),它的意思是“总参数约为30B,大约3B在推理过程中处于活动状态”。它是近年来成为主流的架构,保证大规模模型的表达能力,同时抑制推理成本。
值得注意的是关键词“快速思维模式”。这种设计与推理模型相反,推理模型会生成很长的思维链然后做出响应,对于需要立即响应的任务(例如翻译)来说是有意义的。据说腾讯发布的基准测试在相同模式下优于 DeepSeek-V4-Pro 和 Kimi K2.6 的一点是,挑战仅依赖大型推理模型的趋势你可以这么说。但需要注意的是,这些数字目前是腾讯自己的评估,还有待第三方独立的复现性验证。
技术亮点是使用 AngelSlim 进行 1.25 位量化。普通 LLM 的权重为 16 位或 8 位,但 1.25 位被归类为极端压缩方法。根据AngelSlim的解释,平均宽度为1.25位是通过用1位{-1,+1}表示4个权重中的3个,将剩余权重清零,并将整个权重压缩为5位来实现的。这导致1.8B 型号已缩小至仅 440MB,使智能手机上的离线翻译成为可能。(腾讯/AngelSlim声称。每个型号的实际速度和内存测量有待第三方验证)。
实现设备上翻译不仅仅是方便。会议材料、病历、法律合同等有很多需要翻译难以发送到云端的机密文档。。即使在网络阻塞的环境中(飞机上、海外出差、医疗环境中)也能够执行高质量翻译,这在隐私保护和业务连续性方面创造了巨大的价值。
不要错过同时发布的“IFMTBench”。这是一个新的基准,评估在翻译中遵循指示的能力。我们衡量模型在多大程度上能够满足实践中经常出现的复杂要求,例如“根据技术术语表进行翻译”、“以指定风格进行翻译(正式/休闲)”、“在保留 JSON 结构的情况下进行翻译”等。README 中列出的七种类型的提示模板(默认、术语、风格、个性化、分隔符和结构化数据 1/2)正是考虑到这样的实际场景而设计的。
考虑到对日语读者的影响,日语当然也包含在支持的语言中。腾讯声称1.8B模型已经超越微软、豆宝等商业API是有分量的。。添加在您自己的服务器中运行的选项对于迄今为止依赖 DeepL、Google Translate 和 ChatGPT 翻译的业务流程来说非常重要。
另一方面,有一些要点需要牢记。该版本尚未在 GitHub 上发布,第三方独立验证尚未到来。此外,GitHub 上的许可证显示目前为“未知”,商业使用和重新分发的条款必须在许可证文本中单独检查。事实上,一些海外媒体对于这款机型的定位以及与上一代“HY-MT1.5”的关系似乎有不同的解读。当读者考虑为自己的业务实施此服务时,我们建议他们不要依赖基准数据,而是使用自己的领域数据进行实际评估。
从长远来看,这表明“翻译民主化”有可能取得进一步进展的事件可能会被记住为。一个不同母语的人们可以即时交流、无需任何额外费用且具有隐私性的世界。我们正在进入一个基础设施不再被云公司垄断、任何人都可以在自己的设备上运行的时代。这或许就是腾讯刻意选择“窄而深”、专门模式的原因。
【术语解释】
教育部(专家混合)
一种内部拥有多个“专家网络(专家)”并且仅根据输入激活部分专家的机制。 Hy-MT2的命名“30B-A3B”被解释为指示根据一般命名约定在推理期间仅激活总参数30B的约3B。它是现代法学硕士的主流架构,结合了大型模型的表达能力和轻量级模型的推理速度。
fast-thinking(高速思考)モード
与推理模型所采用的“通过一长串思维给出答案”的推理模式相反的概念。此方法简化了思维过程并立即返回响应,使其适合延迟很重要的任务,例如翻译。
1.25位量化
一种限制方法,将模型权重压缩到平均 1.25 位。 AngelSlim采用的Sherry框架采用“3:4稀疏+5位打包”的方式,其中4个权重中的3个用1位{-1,+1}表示,1位清零,整个权重打包成5位,实现平均宽度1.25位。压缩率是一般FP16(16位)的十倍以上。
IFMT工作台
与Hy-MT2同时发布的新评估基准。假定该名称表示衡量翻译中遵循指令的能力(Instruction-Following Machine Translation)的意图。它不仅衡量翻译准确性,还衡量模型遵循实际翻译中经常出现的复杂指令的程度,例如“遵守术语表”、“以指定风格翻译”和“维护结构”。
WMT(机器翻译研讨会)
机器翻译领域领先的国际学术研讨会和竞赛。 WMT26 定于 EMNLP 2026 上作为第十一届机器翻译会议举行,最高奖项被广泛认为是机器翻译技术世界水平的指标。
GGUF
llama.cpp 项目采用的量化模型的通用文件格式。由于LLM可以在一般游戏PC和Mac上运行,因此它已成为本地AI传播的事实上的标准格式。
FP8量子化
以 8 位表示浮点数的量化方法。它在GPU服务器的实际操作中被广泛采用,因为它可以在不显着降低精度的情况下提高推理速度和内存效率。
[参考链接]
腾讯-Hunyuan/Hy-MT2(GitHub存储库)(外部)
Hy-MT2 的官方存储库。主要信息来源包括自述文件、技术报告、推理示例代码和 IFMTBench。
Hy-MT2-1.8B(抱脸)(外部)
腾讯官方Hy-MT2模型分发页面。您还可以使用相同的 URL 模式下载 7B/30B-A3B 版本和量化版本。
AngelSlim/Hy-MT1.5-1.8B-1.25bit(抱脸)(外部)
AngelSlim官方1.25位量化模型卡。您可以查看设备端翻译的操作要求和量化方法详细信息。
Hy-MT2系列(ModelScope)(外部)
阿里云AI模型分发平台上的Hy-MT2合集。中国境内用户的主要下载路径。
AngelSlim(GitHub)(外部)
Hy-MT2中用于1.25位量化的腾讯模型压缩工具包。它还支持推测采样等。
腾讯AI Studio(法学硕士官方门户)(外部)
腾讯浑源LLM官方介绍网站。您可以查看包括Hy-MT2在内的腾讯模型组的定位和使用情况。
WMT26 通用翻译任务(外部)
WMT26通用机器翻译任务官方页面。发布参与指南、要评估的语言对、时间表等。
WMT26视频字幕翻译任务(外部)
视频字幕翻译任务官方页面隶属于腾讯Hy。与视频内容的全球扩张直接相关的评价轴。
深思官方网站(外部)
与Hy-MT2进行比较的“DeepSeek-V4-Pro”的开发者。以其来自中国的高性能开源法学硕士而闻名。
Kimi API 平台(Moonshot AI)(外部)
Moonshot AI的API平台提供了对比目标“Kimi K2.6”。最新Kimi型号的规格和价格结构已发布。
微软翻译(外部)
Hy-MT2 与之进行比较的商业翻译 API。与 Office 产品和 Azure 集成的多语言翻译服务。
豆包(豆包)(外部)
字节跳动旗下生成式AI助手“豆宝”官网。在中国市场占有率较高的商业LLM服务。
骆驼.cpp(GitHub)(外部)
GGUF 格式模型的推理引擎。在 PC 或智能手机上运行 Hy-MT2 GGUF 版本时的标准运行时间。
[参考文章]
腾讯Hy-MT2证明专业人工智能模型具有优势(外部)
《创业财富》杂志的评论文章。我们分析,腾讯正在走自己的专业化翻译和智能手机离线运营的道路。
Sherry:硬件高效的 1.25 位三元量化 (arXiv)(外部)
关于 Sherry 框架的论文,该框架是 AngelSlim 1.25 位量化技术的基础。解释使用 3:4 稀疏性和 5 位打包的极限量化方法。
tencent/Hy-MT1.5-1.8B-1.25bit(抱脸模型卡)(外部)
上一代Hy-MT1.5的1.25位量化模型卡。量化技术Sherry已被ACL 2026采用,并已确认支持33种语言+5种方言。
HY-MT1.5技术报告(arXiv)(外部)
Hy-MT2官方引用的HY-MT1.5技术报告。解释了集成了 MT 特定预学习、SFT、策略蒸馏和强化学习的训练流程。
腾讯混源HY-MT 1.5:33种语言翻译模型(外部)
StableLearn 杂志关于 Hy-MT1.5 的解释性文章。它强调1.8B模型实现了与7B模型几乎相同的翻译质量。
DeepSeek V4 预览版(DeepSeek API 文档)(外部)
对比目标“DeepSeek-V4-Pro”的官方文档。用于确认型号发布日期和基本规格的主要信息。
[相关文章]
腾讯混合源开源翻译模型1.5。超过商业 API,内存为 1GB(内部)
这是一篇关于 HY-MT1.5 的说明文章,HY-MT1.5 是 Hy-MT2 的上一代产品。您可以查看截至 2025 年底的规格和评估。
腾讯“混源MT 7B”开源,性能优于谷歌翻译 | WMT2025 30个语言对中排名第一(内部)
混元翻译模型系列第一代的讲解文章。您可以回顾一下导致您在 WMT2025 上获得 30 个语言对第一名的起点。
腾讯混元2.0:为什么406B MoE模型加速数学推理和Agentic Coding(内部)
关于公司通用大规模语言模型混元2.0的讲解文章。补充信息,概述了腾讯混元的模型策略。
[编者后记]
我们几乎已经到了这样的程度:即使是机密文件也可以使用一部智能手机进行高质量的离线翻译。您通常在什么情况下使用翻译工具?
无论是工作文件、海外网站上的文章,还是出国旅行时与家人的对话,我认为每个人都会根据目的,在可以使用云翻译的内容和希望自己完成的内容之间划清界限。当像 Hy-MT2 这样的设备端翻译变得普遍时,您想用它做什么?如果我们能一起思考将来如何使用它,我会很高兴。
