与AI对话,我们可以衡量它是否聪明,但如何衡量它是否舒服呢?夏普面临的挑战正是这个难以言喻的问题。该公司开发了一个系统,将人工智能反应的“合意性”分解为 29 个项目,并使用另一个人工智能对它们进行评分。该技术已被应用于电视“AQUOS”的新AI服务中,据说对话质量实际上得到了提高。未来,当家电成为谈话对象时,谁来决定谈话的好坏?考虑到我们与人工智能之间的距离,这是一个必看的公告。
夏普于 2026 年 6 月 2 日宣布,已开发出一种舒适的 AI 对话技术,该技术使用自动评估 AI 响应内容的系统。此前,AI对话反应都是主观评价,存在时间、评价者不同、缺乏统一标准等问题。夏普调查了以往关于对话的研究,提取并系统化了影响对话“合意性”的项目,例如“回应准备度”、“情境理解”和“知识”,并创建了可以定量测量的评估标准。
回答的内容将使用一个名为“LLM-as-a-judge”的独立法学硕士在短时间内进行评估。该技术是夏普专有人工智能技术CE-LLM的一部分。作为第一步,我们开发了九个项目的评估系统,并将其应用于2026年5月发布的电视“AQUOS”的“AQUOS AI”服务,并确认评估值有所提高。评估标准的详细信息计划于2026年6月8日至12日在群马G Messe和在线举行的2026年日本人工智能学会全国会议上公布。

【编辑部评论】
夏普此次宣布的不仅仅是“擅长对话的AI”,而是“AI对话技能评分机制”是。这是最大的一点。与其创建一个新模型,不如将其视为创建一个训练模型的“尺度”,这样会更容易理解。
为什么我们需要一把测量尺?到目前为止,衡量人工智能的反应是否“感觉良好”的唯一方法是由人类一一阅读每个反应并做出主观判断。不仅费时费力,而且根据记分者的不同也会造成差异。夏普引入了一种名为“法学硕士作为评判”的技术,由另一名法学硕士对回答进行评分。
这项技术本身并不是夏普的发明。这是人工智能行业正在兴起的一种方法,并已广泛应用于MT-Bench、Chatbot Arena等知名评估平台。夏普的独特之处不在于方法本身,而在于测量对象的设计。
该公司将对话的“合意性”分为“基本因素”和“用户依赖因素”两大类,共29项(指标数量见附表)。即时性、情境理解、知识、适应性、个性/一致性,甚至同理心、幽默和创造力。有趣的是,它将我们通常认为很容易进行的对话的本质分解为可分级的元素。
我想重点关注的是第一轮评审的九个项目是如何选出的。所有九个项目都属于基本因素,包括“记住对话主题和轮次”、“理解代词的所指对象”、“维护人物角色”和“防止陈述中的矛盾”。另一方面,幽默、同理心和创造力等似乎使人更加人性化的因素尚未接受评估。你可以看到他们首先为不会失败的对话奠定基础的坚实顺序。
这项技术已经产生了具体的产品。该公司于2026年5月14日宣布了针对电视“AQUOS”的新服务“AQUOS AI”,并于5月23日开始提供。这是一项可以在大屏幕上与AI角色对话的服务,除了每月最多50次通话功能的免费计划外,还有每月495日元和1,980日元的付费计划。消息的实用核心是,当这个评价体系被应用到这款AQUOS AI的开发中时,响应内容的评价值得到了提升。
幕后是夏普专有的边缘人工智能“CE-LLM(通信边缘 - 大语言模型)”。它采用混合配置,可以在终端侧快速返回主要响应,并根据需要使用云人工智能,并且已经在对话角色“Poketomo”和会议纪要工具中使用。该对话技术被定位为该 CE-LLM 的一部分。
考虑一下技术对读者生活的影响。当电视、小机器人等熟悉的家电变成“对话伙伴”,对于公司来说,能够定量管理这些对话的质量非常重要。以前被视为“以某种方式更好”的改进现在将在可以数字跟踪的开发周期中实施。与家用电器的交互变得更加舒适的速度可能会增加。
另一方面,也有一些不容忽视的点。问题是谁定义了“愿望”以及如何定义。创作者的价值观始终融入到评分项目的设计中。高度评价“积极词汇比例”的设计,另一方面意味着它朝着鼓励AI以积极态度说话的方向进行优化。在很多情况下,这可以带来安慰,但夏普在其评估标准中纳入“诚实回答‘我不知道’”的事实可以被解读为对这一担忧的答案。
作为进一步的技术点,法官法学硕士本身并不是万能药你也应该抓住它。学术研究多次指出,LLM评分者存在多种系统性偏见,包括立场偏见、对冗余答案打高分的倾向,甚至还有偏爱与自己相似写作风格的自我偏好偏见。即使评分员被机器取代,评分员自己的偏见仍然存在。夏普的机制如何抑制这种偏差无法从当前版本中得知,我们将不得不等待进一步的解释。
寻找答案的时刻很快就会到来。该公司计划在2026年日本人工智能学会全国会议上公布系统化评估标准的详细信息,该会议将于2026年6月8日至12日在群马县高崎市的G Messe Gunma举行并在线举行。超越新闻稿并将其暴露给学术界验证可能是衡量该技术可靠性的重要信号。
从长远来看,这可以被视为“创建衡量人工智能质量的标准”这一更大趋势的一部分。生成式人工智能越渗透到社会的每一个接触点,客观评估其质量的标准就越有价值。我认为夏普作为一家家电制造商,从产品开发领域本身决定打造这把尺子,就是时代变迁的标志。
【术语解释】
CE-LLM(通信边缘-大语言模型)
夏普自主研发的Edge AI技术。它采用混合配置,在智能手机或家用电器等终端侧返回高速主响应,仅在需要复杂处理时才使用云人工智能。目的是减少对话中的“停顿”,实现自然的互动。
边缘人工智能
一种在终端(设备)本身而不是在云服务器上进行人工智能处理的技术。根据处理内容,可以轻松抑制向外部传输数据,据说在低响应延迟和隐私方面具有优势。然而,像 CE-LLM 一样,有许多配置也根据需要使用云 AI。
法学硕士法官
一种方法,其中一个人工智能(法学硕士)生成的回答内容由另一个法学硕士进行评分和评估。与人工主观评估相比,可以在更短的时间内进行大量评估,并且可以抑制评估的变化。尽管它在人工智能开发领域得到广泛应用,但有人指出,负责评分的法学硕士本身的偏见是一个问题。
人格面具
AI 的个性、角色和角色图像集。谈话的自然程度取决于你在谈话过程中能否保持一致的“个性”而不改变语气或立场。
填料
“嗯”、“嗯”等中间词,让对方知道你在思考。在人类谈话中,它填补了沉默并缓和了停顿。
[参考链接]
AQUOS AI(夏普服务官网)(外部)
应用该技术的电视“AQUOS”服务的官方页面。介绍对话功能和计划。
开始为电视(夏普)提供“AQUOS AI”服务(外部)
5 月 14 日发布,宣布 AQUOS AI。它解释了共情智能和探索智能等设计概念。
夏普公司公司网站(外部)
出版商夏普的官方企业网站。它包括管理政策和新闻稿列表。
JSAI2026 – 2026年度 人工知能学会全国大会(第40回)(外部)
夏普公布评价标准的学术会官方网站。于 6 月 8 日至 12 日在群马 G Messe 举办并在线举办。
[参考文章]
你能相信LLM的判断吗?法学硕士法官的可靠性(外部)
研究指出,单个输出只是概率分布的一个样本,“固定随机性”使得评估不稳定。
法学硕士法官 vs 人类评估(伽利略)(外部)
93% 的团队表示面临一致性、成本和偏见。介绍通过组合三个模型可以实现高精度的解释。
沉默的法官:法学硕士法官中未被承认的捷径偏见(外部)
一篇 NeurIPS 2025 研讨会论文报告称,评分者的 LLM 存在位置/冗余偏见,并且在不知情的情况下存在偏见。
超越共识:减轻法学硕士法官评估中的宜人性偏差(外部)
研究表明,超过 96% 的正确答案可以被检测出来,但只有不到 25% 的错误答案可以被检测出来,可靠性可能被高估。
评判法官:法学硕士法官管道中的偏见缓解策略(外部)
一项实证研究,使用五种评分模型和多个基准系统地比较了九种类型的偏差减少策略。
[相关文章]
夏普“AQUOS AI”将于5月23日上市,开启在电视上与真人大小的AI角色对话的新时代
应用本文描述的评估技术的服务本身的公告。这是了解该技术“应用”的必备文章。
夏普“Poketomo”掌上情感AI——智能手机与机器人的新关系
拥有相同CE-LLM的对话角色。您可以看到产品与构成其基础的对话评估技术之间的关系。
夏普为 Edge AI 会议纪要工具添加翻译功能,保护机密信息无云
CE-LLM的B2B应用示例。与这种B2C对话技术一起,本书展示了多方面开发的扩展。
[编者后记]
在家电已成为我们谈话伙伴的时代,我们倾向于关注如何巧妙地回答问题。然而,这次夏普的挑战是问“你对这次谈话感到舒服吗?”这是一个更感性且难以用语言表达的问题。
与人工智能对话的哪些时刻让你感觉良好?另一方面,你有没有感觉它很准确,但有点冷淡?衡量“可爱度”的标准的故事也是我们自己在谈话中寻找的一面镜子。如果您愿意,请尝试稍微寻找一下您自己的答案。
