AI到底有多聪明,谁来衡量它的“聪明”?理光在2026年5月29日免费发布的并不是新的AI模型本身,而是衡量AI推理能力的“衡量标准”。我们将利用财务报表和路线图等日本企业特有的充满图表和图表的文件,询问人工智能是否真的可以“思考”并得出答案。我们将破译评估标准的内容。
2026年5月29日,理光株式会社免费开发并发布了基准测试工具“JDocQA Reasoning Benchmark”,用于评估AI在理解包括图形和表格在内的日语文档方面的推理性能。
该项目是经济产业省和NEDO实施的GENIAC生成型人工智能开发项目的基本模型开发第三阶段的一部分。理光为来自日本问答数据集 JDocQA 的测试图像子集添加了独特的问答格式 QA 注释,其中包括条形图、折线图、财务报表和路线图等 20 多种图表,总共由 1,287 个问题组成。我们设计了提取、计算、比较、补全的任务。
理光已经在第三阶段开发了基本的多模态LLM模型“Qwen3-VL-Ricoh-32B-20260227”和“Qwen3-VL-Ricoh-8B-20260227”。评估代码将在Apache License 2.0下发布,QA注释部分将在CC BY-SA 4.0下发布。
从:
理光发布原创基准测试,免费测量生成式人工智能的推理性能
【编辑部评论】
理光这次发布的公告中经常被忽视的是,理光发布的并不是“智能AI”本身,而是“智能AI”。衡量AI智能程度的“尺度”这就是重点。该公司于2026年3月30日公布了合理性能型号“Qwen3-VL-Ricoh-32B-20260227”和轻量化版本“8B”,评估基准据称“计划稍后发布”。这一次,这个承诺将会兑现。
为什么公开衡量标准很重要?基准定义了开发人员应该改进的目标。英语国家制定的现有评估指标无法充分捕捉包含日语特有的数字和表格的商业文件。日本基于日本企业工作场所使用材料的共同评价轴的存在本身就具有工业意义。这是。
技术上的难度是“阅读”文档和“推理”是两件不同的事情。这就是重点。如果您只想从图表中提取数字,则可以使用传统的 OCR。然而,诸如“比较两个数字并估计周围元素缺失值”之类的多步骤思维需要跨越视觉信息和文本的复杂处理。新闻稿中提到了提取、计算、比较和补充作为典型例子。从公开数据集来看,QA 实际上分为八类:提取(579 个问题)、插值(275 个问题)、比较(134 个问题)、计算(130 个问题),加上趋势/模式识别、结构化、预测等。。这个基准可以说是试图将这种“思考能力”分解成小块并进行衡量。
评分系统也很独特。该基准测试使用“LLM-as-a-Judge”方法,该方法使用另一个 AI (Azure OpenAI) 来判断模型的答案为 0 或 1。AI 对 AI 的答案进行评分这种结构预见了未来人工智能开发中常见的问题,例如如何自动化评估本身以及如何信任它。
我想提请您注意的是基本型号的血统。第二个模型采用三层结构,使用日语较强的“Llama-3.1-Swallow-70B”作为语言处理的基础,以及阿里巴巴的“Qwen2-VL”方法进行图像读取。第三期,基于阿里巴巴最新型号“Qwen3-VL”,重新设计为更轻的32B/8B。我们基金会的核心是由源自海外的开放模式支持的。理光的独特价值在于日本推理数据和评估环境的构建。——这一构图反映了当前“国产人工智能”的现实,即发挥国内市场优势,同时明智地结合海外优势基础设施,实现差异化。
牌照设计也非常用心。评估代码在 Apache License 2.0 下发布,QA 数据在 CC BY-SA 4.0 下发布。后者的“相同方式共享”条款要求以相同的条款发布修改。其目的是将改进链传播到整个行业,而不锁定数据。可以阅读。
在实践方面,合同、财务报表和设计图纸等非结构化数据的自动处理也在范围之内。如果机器能够完成传统上依赖人类的图表阅读和判断,后台运营的工作量发生了显着变化。应该是的。这也很容易与理光“为工作带来乐趣”的理念联系起来。
另一方面,仅有乐观是不够的。当基准发布时,总是存在“过度拟合”的风险,即开发人员过度优化测试问题,或“污染”,即评估数据混合到训练中。 1287个问题的规模一点也不大,在特定指标上获得高分并不一定等于在该领域真正有用。你需要小心这一点。
从监管和标准化的角度来看,政府资助项目向私营企业免费提供评估基础设施的趋势不容忽视。如何衡量人工智能能力的问题最终可能会直接引发采购标准和安全评估的讨论。建立理解日本文件的国内评估轴是未来规则形成的垫脚石。编辑部相信这能够成为现实。
从长远来看,这种评估基础设施的稳步积累将决定日本人工智能发展能力的底层实力。华丽的型号公告背后开发“测量技术”——编辑部认为这种新闻值得记录下来,以此悄悄塑造未来的竞争状况。
【术语解释】
推理表现(推理)
人工智能不仅能够搜索和提取信息,而且能够通过由多个步骤组成的逻辑思维过程得出结论。该基准重点衡量这种“思考能力”。
非构造化データ
未提前组织的数据,例如电子表格矩阵,机器很难按原样处理。典型的例子包括合同、报告、图纸和图形图像,IDC 和其他组织的研究表明,它们通常占公司持有数据的 80% 至 90%。
多步推理
一种思维方式,涉及顺序累积提取、计算和比较等多个过程,然后得出单一答案。此过程涉及从图表中读取两个值、计算差异并确定趋势。
OCR(光学文字认识)
一种将图像中的字符转换为文本数据的技术。与该基准测试的能力不同的是,虽然他们可以“阅读”文本,但他们不负责根据内容进行“判断/推理”。
视觉编码器
在多模态模型中,起到将图像和图表转换为后续语言模型可以处理的格式的部分。理光的第二代机型采用了阿里巴巴的“Qwen2-VL”方法,但该第三代机型是在“Qwen3-VL”的基础上重新设计的。
法官法学硕士
一种使用另一个大规模语言模型来确定一个人工智能模型输出的正确性和质量的评估方法。该基准测试使用 Azure OpenAI 作为评判者,并自动按 0/1 的等级对答案进行评分。
[参考链接]
理光株式会社(官方网站)(外部)
理光集团官方网站,基于人工智能和打印技术支持全球约200个国家和地区的工作场所转型。
JDocQA推理基准(抱脸)(外部)
这是理光免费发布的基准分发页面。您可以查看并获取8个类别的QA结构、评分方法和评估代码。
理光的大规模语言模型(LLM)支持“工作”(外部)
这是一个官方技术页面,解释了理光LLM/LMM开发的总体情况、合理的模型以及确保安全的机制。
GENIAC(经济产业省)(外部)
经济产业省推动的旨在加强国内生成式人工智能开发能力的项目的官方页面。将发布所选企业和支持详细信息。
NEDO(新能源产业技术综合开发机构)(外部)
负责实施 GENIAC 并协助提供基本模型开发所需的计算资源的国家研发公司的官方网站。
JDocQA 论文(Anlp,语言处理协会)(外部)
这是描述日本文档问答数据集“JDocQA”设计的原始论文,它是该基准测试的基础。
[参考文章]
理光推出日本商业文档人工智能推理开放基准(IBTimes JP)(外部)
一篇英文文章报道称,该基准是多阶段推理评估,有 20 多种图表和 1,287 个问题。
理光在“GENIAC”第三阶段开发出性能合理的多模态大规模语言模型(理光)(外部)
作为本案例前提的主要信息,告知 Qwen3-VL-Ricoh-32B/8B 的开发完成以及基准发布的时间表。
生成AI基础模型开发第2期成果发布(经济产业省)(外部)
公开记录显示,第二代模型是Llama-3.1-Swallow-70B和Qwen2-VL的组合。
理光与GENIAC完成多模式LLM基本模型的开发(理光)(外部)
主要信息明确指出第二个模型具有 Vision Encoder + Adapter + LLM 的 3 层结构。
JDocQA:日语文档问答数据集(arXiv)(外部)
JDocQA 的原始来源,定义了日语文档 VQA 的问题。它被定位为包含大约 11,600 个问题的数据集。
理光的多模态大规模语言模型也能读图“日语文档很难”(MONOist)(外部)
一篇技术文章,报告了兼容图表的 LMM 的开发完成情况和第二期资助情况,以及理解日语文档的难度。
[相关文章]
介绍NTT版本的LLM“tsuzumi 2 Vision” - 纯国产AI,可以使用1个GPU阅读带图表的日本商业文件
参加“用图表解读日本商业文件”的另一位主角是NTT的主模特。这是我想作为理光(评价轴)的伴侣来阅读的一本书。
乐天AI 3.0正式发布——日本最大LLM的力量与“DeepSeek起源”争议的核心
除了第3期采用GENIAC、Hugging Face免费发布等共同点外,本文还深入探讨了对国产AI基础模型的依赖问题。
阿里巴巴“Qwen3.7-Max”发布,挑战代理时代,可自主运行35小时的新AI和真武M890芯片
理光新机型所基于的Qwen系列的最新趋势。补充基本模型的谱系。
GENIAC 奖 |总奖金高达约8亿日元,生成式AI社会实现大赛获奖结果将于3月24日公布
这篇文章可以让您了解国家项目GENIAC的整体情况和社会实施阶段,这是本案例的基础。
[编者后记]
与发布华丽的新车型相比,基准测试的发布可能是一个安静的话题。然而,决定什么是“智能”的“测量”却悄悄地影响着技术进步的方向。
谁来衡量能力,用什么标准来衡量?我们认为这个项目迈出了不小的一步,因为它汇集了这个问题的许多国内原创答案。我们愿意与大家一起继续密切关注构成这些技术基础的新闻。
