中国的一个研究小组现已发布了一种能够理解声音的人工智能,可以破译会议录音中所说的内容,包括谁说了什么、何时以及转录之外的情绪。这是复旦大学OpenMOSS等人创建的“MOSS-Audio”。据悉,它不仅可以解读语音,还可以解读环境声音和音乐,并且以 8B(80 亿个参数)的相对较小尺寸,表现优于 4 倍尺寸的开源模型。尤其是,在预测何时说话的准确度方面,据说甚至超过了谷歌的Gemini,达到了第二级。这种免费商用的模式将如何改变会议纪要、字幕、声音异常检测领域?另一方面,我还将解释从声音中解读情绪的能力所带来的危险。
MOSS-Audio是MOSI.AI、OpenMOSS团队和上海创新研究院共同发布的开源语音理解模型。
它支持语音、环境声音和音乐理解、语音字幕、时间感知 QA 和复杂推理。这次,我们提供四种模型:MOSS-Audio-4B-Instruct、MOSS-Audio-4B-Thinking、MOSS-Audio-8B-Instruct 和 MOSS-Audio-8B-Thinking。 LLM主干是Qwen3-4B或Qwen3-8B,总大小约为4.6B和8.6B左右。在整体语音理解方面,MOSS-Audio-8B-Thinking 的平均得分为 71.08。 ASR 的总体 CER 为 11.30,对于时间戳 ASR,MOSS-Audio-8B-Instruct 使用 AISHELL-1 实现了 35.77 AAS,使用 LibriSpeech 实现了 131.61 AAS。
该模型是在 Apache License 2.0 下提供的。技术报告 (arXiv:2606.01802) 于 2026 年 6 月 1 日在 arXiv 上发布。
从: OpenMOSS/MOSS-Audio – GitHub
【编辑部评论】
首先,我想澄清一下本次发布的主题。MOSS-Audio不是一个“生成”音频的模型,而是一个“理解”音频的模型。当您输入音频时,它会以文本形式返回转录、对说话者和情绪的分析、对环境声音的解释、对音乐的分析、定时问答等。以前,这些任务被划分到单独的专用系统中,但是该项目的核心是将所有这些组合成一个基本模型。
开发商也有背景。 OpenMOSS 是复旦大学自然语言处理实验室(FudanNLP)的一个研究小组,目前位于上海创新研究院(SII),由邱锡鹏教授领导,与复旦大学和 MOSI.AI 合作。该团队曾于 2023 年发布了中国首批开源会话型大规模语言模型之一 MOSS。顺便说一下,MOSS 这个名字来自电影《流浪地球》(日文片名《流浪地球》)中出现的 AI。语音生成端的MOSS-TTS家族也已单独发布。一场将“理解”与“生成”结合起来的运动它可以读作
从技术角度来看,我想关注的是“时间戳ASR”的准确性。这是能够在几秒钟内说出所说的内容和时间因此,MOSS-Audio-8B-Instruct 在表中的 AAS 方面优于其他产品(数字越低越好)。之所以如此有效,是因为诸如提示会议记录、自动排列字幕以及在会议中引用特定言论等做法直接依赖于时间准确性。
这一点也与行业长期面临的问题重叠。 “文本幻觉”经常在大型语音系统模型中被指出。有一个基准,即使将音频替换为静音,正确答案率也超过 50%,因此有人怀疑模型是基于先前的语言知识而不是实际声音进行响应。这就是问题所在。正确猜测时间的挑战将考验你是否真正在听声音。 MOSS-Audio 的设计融入了学习阶段的时间表达,可以算是解决这一弱点的一种方法。
让我们冷静地看看我们相对于竞争对手的地位。主要竞争对手Qwen3-Omni是阿里云开发的30B级模型。在全面的言语理解中,据悉,8B规模的MOSS-Audio已经超越了此次开源的30B级和33B级。看来,“小而强”的诉求总体上是成立的。然而,闭源的Gemini-3.1-Pro在整体理解上仍然明显领先,我想避免误解它不是“各方面都是世界上最好的”这一事实。MOSS-Audio 在一个特定方面确实脱颖而出:时间戳准确性。
我还想谈谈设计的一些怪癖。 “DeepStack 层间特征注入”是将最初在图像系统中使用的想法应用到音频中,它不仅将编码器最后一层的信息注入到语言模型中,还将中间层的信息注入到语言模型中。目标是挽救“细节”,例如语气、呼吸和轻微的环境声音,这些细节通常在最后一层中被平均和丢失。方法上的差异也很有趣; Qwen 阵营创建了一个单独的对齐模型(Qwen3-ForcedAligner)用于时间戳预测,而MOSS-Audio 尝试在一种模型中处理时间。作为设计理念的转折点,值得记录。
实际影响也不小。MOSS-Audio 在 Apache License 2.0 下发布,允许商业使用、修改和重新分发,不受 Copyleft 限制。4B 模型很容易在您自己的 GPU 上运行,为您以前依赖昂贵的专用 API 的内部制作领域提供更多选择,例如分钟分析、内容审核、字幕/辅助功能支持和声音异常检测。
但是,我们也不应该忽视潜在的风险。从声音推断说话者的特征和情绪的能力可能很有用,但它也可用于非自愿声纹分析和情绪监控。虽然开源是一个优势,但它也有一个命运,那就是很难阻止这种使用。用户还需要警惕情绪估计的准确性和假设可能因文化和语言而产生偏差的可能性。
监管方面也不容忽视。欧盟《人工智能法案》第5(1)(f)条原则上禁止人工智能在工作场所和教育机构中通过声音和面部表情推断情感,该规定已于2025年2月生效。在其他情况下或出于医疗或安全目的存在例外情况时,它被归类为“高风险”而不是“禁止”。从声音中读取心理状态的技术是一个可能被禁止或高风险的领域,具体取决于应用程序。在实践中,重要的是要划清界限,这仅适用于“情绪估计”,并且它不是基于观察“微笑”的外观,而是基于推断“快乐”的内心状态。在日本,与记录数据的获取和分析相关的同意和隐私问题可能会在该技术普及之前得到解决。
从长远来看,这种情况这是“将声音提升为可以与图像和文本同等对待的对象”趋势中的一步。它的定位为。正如视频理解在过去几年中已成为一种商品一样,音频理解也正在从专用系统转向日常组件。这正是 innovaTopia 现阶段着手处理此事的原因。在自动化聆听变得普遍之前,我想与读者分享一下它的机制及其优缺点。
【术语解释】
音声理解(Audio Understanding)
这是一个技术领域,不仅可以转录语音,还可以解释谁在说话、他们使用什么情感、背景中有什么声音以及何时发生和发生了什么。它指的是“破译”而不是“生成”语音的一方。
ASR(自动音声认识)/CER
ASR 是一种将语音转换为文本的技术。 CER(Character Error Rate)是表示错误程度的指标,数字越小越准确。
时间戳 ASR/AAS
挑战不仅在于转录话语,还在于将每个单词或句子映射到时间点。 AAS是衡量时间差的指标,数字越小,时间越准确。
语音字幕
口头描述声音特征的任务,例如性别、年龄、语调和清晰度。生成比简单转录更详细的“声音解释”。
时间感知质量检查
这是指根据时间回答问题的能力,例如“你在 2 分钟时说什么?”
DeepStack 层间特征注入
这是最初用于图像识别的想法在语音中的应用。不仅来自编码器最后一层的信息,而且来自中间层的信息都被输入到语言模型中,保留语音音调和环境声音等细节。
思考连锁(Chain-of-Thought)/Thinking系
一种在得出答案的过程中逐步展开推理的方法。 MOSS-Audio的思维系统是这种推理的增强版本。
文字幻觉
语音模型根据上下文推断而不是实际声音进行回答的现象。有报告称,即使将音频替换为静音,在某些基准测试中,正确答案率也能达到 50% 以上。
MMAU/MMAU-Pro/MMAR/MMSU
两者都是衡量理解语音的整体能力的基准。分数越高,性能越好。
阿帕奇许可证 2.0
它是一个开源许可证,允许商业使用、修改和重新分发,而不受 Copyleft 限制。
EU AI法(AI Act)/第5条(1)(f)
欧盟全面的人工智能监管。工作场所和教育机构中情绪估计人工智能的禁令于 2025 年 2 月 2 日生效。违反禁止活动可能会导致最高 3500 万欧元或全球年营业额 7% 的罚款,以较高者为准。
复旦NLP/OpenMOSS的历史
OpenMOSS是复旦大学自然语言处理实验室(FudanNLP)的一个研究小组,于2023年发布了“MOSS”,是国内最早开源的会话式法学硕士之一。
[参考链接]
OpenMOSS(官方网站)(外部)
邱世鹏课题组官方网站。他发表了法学硕士和多模式基础模型方面的研究。
MOSI.AI / MOSI 工作室(外部)
MOSI.AI 的网站参与了 MOSS-Audio 的开发。它提供语音合成等服务。
上海创新研究院(SII)(外部)
OpenMOSS 所在的研究机构。它旨在人工智能领域的教育和研究创新。
OpenMOSS-Team(抱脸)(外部)
这是官方页面,分发4个模型(4B/8B、Instruct/Thinking)的权重和模型卡。
MOSS-音频项目页面(外部)
这是官方说明页面,介绍了模型的功能和demo。
Qwen3-Omni(GitHub)(外部)
阿里云的Omnimodal LLM是本文比较的对象。处理音频、视频等。
EU AI Act Service Desk(欧州委员会)(外部)
这是欧盟委员会的官方常见问题解答,解释了第 5 条所禁止的行为,例如推断工作场所的情绪。
[参考文章]
MOSS-音频技术报告(arXiv:2606.01802)(外部)
开发商的技术报告。显示编码器/适配器/解码器配置和设计的核心。
OpenMOSS 发布 MOSS-Audio(MarkTechPost)(外部)
本文解释了单个模型如何处理从情绪估计到音乐分析再到多步骤推理的所有内容。
MOSS-Audio:8B参数挑战30B(DEV社区)(外部)
本文涉及8B规模如何挑战30B级别以及Apache 2.0提供的使用自由度。
音频问答(DCASE 2026 任务)(外部)
专注于口语模型的“文本幻觉”的任务解释。这是时间准确性的背景。
Qwen3-ASR技术报告(arXiv:2601.21337)(外部)
这是一份技术文档,报告了具有用于时间戳预测的单独专用对齐模型的对比设计。
欧盟人工智能法案下的红线(隐私未来论坛)(外部)
这是组织在工作场所和教育机构中禁止情绪估计以及高风险分类之间界限的解释。
欧盟人工智能法案冲击:情绪识别现在在工作中是非法的(UC Today)(外部)
本文解释了禁止情绪估计的罚款级别以及所涵盖的生物识别信息的范围。
[相关文章]
介绍阿里巴巴Qwen3-ASR-Flash |通过兼容 11 种语言的 AI 转录在竞争中压倒一切(内部)
本文对比的Qwen系列ASR。这与Gemini和GPT-4o的CER比较问题直接相关。
Qwen3:阿里巴巴开源中国首个混合推理人工智能(内部)
MOSS-Audio 的支柱。这是理解思考和指导两种模式的先决条件的解释。
Mistral AI“Voxtral Transcribe 2”发布 |语音识别的创新(内部)
本书涵盖了与本文相同的要点:Apache 2.0、开放等待和边缘执行。
[编者后记]
我们正处于一个转变之中,能够“聆听和理解”声音的人工智能正在从特殊设备转变为手头的工具。在一个便利感动我们、从人们的声音中读出情感和属性的时代,我们应该托付给别人什么,又应该留下什么?
编辑部也没有给出答案。这就是为什么我想继续从与读者相同的角度来看待技术的轮廓及其优缺点。您首先想用这种“倾听智能”做什么?
