💬 观点Hugging Face

Can Voice Agents Handle Bilingual Customers? — 评测前沿语音识别模型处理中英混合语音的能力，揭示多语言客户服务的技术挑战与进展。

评测前沿语音识别模型处理中英混合语音的能力，揭示多语言客户服务的技术挑战与进展。

2026-06-09原文

本文为要点摘要，完整细节以原文为准。

文章介绍了 ServiceNow AI 与 Hugging Face 合作，针对中英混合语音（code-switched speech）创建了一个新的基准测试。

基准测试的构建：他们收集并标注了一个包含中英混合语句的真实语音数据集，用于评估自动语音识别（ASR）模型在复杂语言环境下的表现。这对开发者意味着，要构建可靠的语音助手，必须拥有能够反映真实世界语言混杂情况的评估工具。
前沿模型的评测结果：测试了包括 Whisper、Gemini 等在内的多个前沿 ASR 模型。结果显示，即使是最先进的模型，在处理语言快速切换时，准确率也会显著下降。这对 Agent 开发的含义是，当前的语音技术在多语言场景下仍存在明显短板，直接影响用户体验。
开源贡献与未来方向：团队将数据集和评测代码开源，鼓励社区共同改进。这为工具链的演进提供了关键资源，开发者可以利用这些材料来训练和优化自己的多语言语音识别系统。

原文：Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech · 作者 Hugging Face