声网联合美团、xbench 发布 AI 外呼智能体评测基准:VoiceAgentEval
  • cici
  • 2026年02月10日 15:29
  • 0

随着生成式 AI 在客服领域的快速渗透,AI 外呼已从最初的辅助沟通工具进化为企业优化客户沟通、提升运营效率的关键环节,应用场景覆盖招聘、销售、客服等,并成为生成式 AI 最广泛应用的场景之一。同时,随着对话式 AI 技术的不断成熟,AI 外呼正从“能通话”向“会沟通、懂需求”的专家级交互升级,虽然业内已有 MMLU、C-Eval等用来评测模型的通用学术榜单,但一直缺乏针对智能外呼场景的评测标准,来全面客观地评估模型在 AI 外呼中的综合性能。

[MD:Title]

在此背景下,声网联合美团、xbench共同推出用于评估大模型在 AI 外呼场景性能表现的综合评测标准 VoiceAgentEval ,旨在填补行业空白,让从业者更清晰的了解在真实 AI 呼业务场景中各个大模型的综合性能表现,并为 AI 外呼场景的落地与技术体验的优化提供核心参考依据。

目前业内现有的模型性能评测标准主要关注一般对话能力或单轮指令遵循,存在数据集量和类别覆盖不足、用户模拟不真实、评估指标不准确等问题。对此,得益于声网、美团、xbench 分别在对话式 AI 交互能力、外呼业务场景、AI 基准评测领域的丰富经验,VoiceAgentEval 实现了从基准测试构建用户模拟器交互质量评估方法三个主要维度评估 AI 外呼的能力。该框架的主要特点包括:

·         基准测试构建:构建一个基于真实外呼业务数据的语料库。该语料库涵盖六大业务领域(客服、销售、招聘、金融、调研、主动关怀与通知)和30个子场景。对于每个子场景建立了详细的评估方案,包括场景特定的流程分解、加权评分系统和领域自适应指标,为细致和客观的评估奠定了坚实基础。

·         用户模拟器:通过利用来自真实业务场景的交互数据,我们构建了大量有效且稳定的用户模拟器。这使得能够在可控和可复现的环境中测试模型,检查它们在不同沟通风格下的任务完成能力。

·         评估方法:建立“文本+语音”双维度评估,针对文本评估开发了一个双层评估系统,包括任务流程遵循和一般交互能力,通过标准化场景设计和定量评分机制实现精确评估。语音评估方面,在三大场景中建立了15个指标,这些指标整合了专家评分和客观数据,为语音识别准确性、音频质量和交互体验提供多维度量化。

[MD:Title] 图:VoiceAgentEval 评测框架示例

用户模拟器:模拟150种人设的用户与 AI 服进行虚拟对话

外呼任务的一大挑战在于目标用户的多样性和不可预测性。为实现测评的规模化和稳定性,美团构建了用户模拟器,用 AI 模拟用户,来验证 Agent 的任务完成度。先基于真实业务场景中的交互数据,利用大模型提取和泛化出典型的用户画像特征,再模拟出五组不同行为模式、知识背景和对话策略的用户,并结合30个真实业务的子场景,形成150组不同设定下的消费者用户,并与AI 模拟器扮演的接听者角色进行虚拟对话。最终在一个受控且可复现的环境中,对被测模型进行测试,检验其在不同沟通风格下的任务完成能力。

为了严格得评估用户模拟器生成的150组用户与 AI 的对话效果,美团采用了三种方法来评估用户模拟器生成的对话和真实对话的接近程度。分别为:

·         拟人度分数评估:基于语言自然性、不完美性和情绪合理性的图灵测试启发的0-9分制;

·         AI 检测评估:由大模型来判断当前对话中的用户是否为 AI 生成;

·         配对比较评估:随机配对 AI 生成的一条对话和一条真实外呼对话,利用大模型驱动的 AI 文本检测师来判断,这两个对话中的哪个更倾向于是 AI 生成;

[MD:Title] 图:用户模拟器构建流程图

AI 呼能力评估:任务流程遵循度与通用交互能力

在成功模拟消费者用户与 AI 进行对话后,需要进一步评估大模型扮演的 AI 客服在外呼场景中的性能表现,主要集中在 TFC 任务流程遵循度与 GIC 通用交互能力两个核心维度。任务流程遵循度主要通过覆盖分数(关键节点与完整节点完成率)与流程分数(任务执行序列正确性、确保业务逻辑遵循、防止程序违规等)两个维度,衡量模型是否能按外呼 SOP 完成任务,评估模型对领域特定业务流程的理解和执行准确性。

而通用交互能力的评估主要依托声网的对话式 AI 引擎构建了真实可运行的智能体评测平台,并基于声网在实时音视频与对话式 AI 领域积累的技术能力,关注多轮对话、ASR 、TTS 三个关键节点中的响应延迟、打断成功率、准确率、音质、交互体验等多个对话体验关键项,最终得出这些 Agent 在复杂的业务环境中的对话能力表现。

早在去年10月,声网对话式 AI 引擎2.0版就上线了电话外呼功能,通过对话式 AI Studio 编排或一行代码即可实现,稳定性高。目前已有多家零售、医疗健康企业接入了对话式 AI 引擎的电话外呼能力,这也为声网在 VoiceAgentEval 中对 AI 外呼智能体的评测提供了更多技术积累。

通过评估任务流程遵循度与通用交互能力这两个核心指标,我们最终发现在 AI 外呼场景中综合性能表现前三名模型为 Doubao-1.5-32k、GPT-4.1、Claude-4-Sonnet,这三款模型的任务完成能力均十分出色,Doubao-1.5-32k 与 GPT-4.1的语音交互体验同样优异,Claude-4-Sonnet 的交互体验则稍逊一筹。

[MD:Title]

xbench 作为红杉中国推出的 AI 基准测试工具,在评估模型在复杂任务中的实际表现与真实场景效用价值方面具备专业的能力,通过结合声网与美团对 AI 外呼智能体的评测方式与结论,最终设计并在其官网发布了VoiceAgentEval。

VoiceAgentEval 的发布不仅仅是为 AI 外呼从业者理解模型在贴近真实外呼业务场景中的“行为表现”提供了有价值的参考。同时,也推动 AI 模型的评测从理想化的学术评测走向更真实的业务场景化评测。

如您还想进一步了解 VoiceAgentEval 的详细内容,可在声网公众号找到这篇文章,扫描文章底部的二维码与我们进一步联系。后续声网也将在 AI 模型评测平台(对话式)中同步上线 VoiceAgentEval 的评测数据。

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0