对于语言学习者来说,练习发音并获得及时准确的反馈,是提高口语水平的重要环节。多年来,微软一直深耕基于 Azure 认知服务的语音功能,不断优化语音评测功能的底层技术,从准确率、流畅度、完整性和语音语调等方面,提供更实用的反馈,赋能教育行业,提升教与学水平。微软承诺发展“负责任的人工智能”,因此在设计和开发人工智能产品的过程中,始终恪守这一原则。本文将为大家介绍微软语音评测模型的整体架构,深入解析底层 Hierarchical Transformer 技术。
语音评测底层技术剖析
微软语音评测功能利用 Azure 神经网络语音合成(Azure Neural TTS)、Transformer、有序回归和 Hierarchical 架构提升了评测的准确率,并且获得了单词级别的准确性提升。与此同时,基于神经网络的GOP(goodness of pronunciation)方法在高质量的声学模型支持下,其表现与真人专业评测水平极为相近。Azure 语音识别(STT)经过大规模真实数据的训练,微软可以利用高质量的 GOP 特征来训练发音错误检测模型。
模型整体架构:攻克数据稀缺难题,模型 PPC 系数大幅提升
语音错误检测面临的主要挑战之一是难以获得高质量的标注数据。为了克服数据稀缺问题(包括正面样本和负面样本的不均衡),微软使用 Azure Neural TTS 生成训练数据,即模拟人类辨别发音错误的过程。在此基础上,使用增强数据进行预训练得到源模型,然后使用标注数据对源模型进行微调。此外,在数据标注阶段,聘请多名语言专家(LE, Langurage Expert)根据相同的评测体系,单独对数据进行标注。两个独立 LE 之间的皮尔逊相关系数(Pearson Correlation Coefficients,PCC)必须大于给定的阈值,以保证标注质量。对于某些低资源区域,利用 Azure Neural TTS 强大的数据生成能力,同样可以采用这种两阶段建模方式提供支持。结合这些创新,模型在 SpeechOcean762 数据集上的 PCC 从 0.5661 提高到 0.6562。

图1:语音错误检测系统架构
构建 Hierarchical Transformer:兼顾全文与单词级别语音评测
微软将来自于 Azure STT 系统声学模型的 Senone、音素和单词特征作为Hierarchical Transformer 模型的输入特征。Senone 信息用于检测细粒度的发音模式,自注意力机制重点聚焦于 Senone 和音素,而单词级别的特征则为当前单词评分提供全局视角(bird’s-eye view)。对齐块用于显式连接 Senone 和音素信息,让Transformer 理解它们之间的隐式关系。
对于单词级特征,模型中采用了单词后验分数、语句级信噪比(SNR)、时长、辅音和元音属性和统计信息等指标进行评测。音素特征比单词特征简单得多,仅包括音素得分和时长。而对于 Senone 特征,仅使用 Senone 分数和状态。通过这种精心设计的特征和模型架构,粗粒度和细粒度特征都将有助于 Transformer 对发音分数进行建模。

图2:发音错误检测Hierarchical Transformer总体框架
引入有序回归,提升语句级别的流利性与准确性
微软在语音评测的准确率评估上进一步引入有序回归(Ordinal Regression,OR),并在 SpeechOcean762 数据集验证了结果。
OR 在之前的研究工作中已用于语句级流利性及准确性的语音评测。与传统的机器学习任务相比,OR 表现得更好,因为它没有将语音评测任务当作分类或回归任务。OR 旨在预测比较样本之间的排序信息——也就是说,它对两个样本进行比较并判断哪一个更好。这种二元偏好测试比传统方法更容易、更快、且更准确。此外,打分本身就是一种在得分上的自然排序,这种二元偏好测试理论上也更符合人类的行为习惯。
为了与其他系统公平比较,微软在 SpeechOcean762 公开数据集上训练了一些模型,该数据集分别包含 2500 个标注良好的训练样本和评价样本。评价指标 PCC 赋予一个介于-1 和 1 之间的值,其中 0 表示无相关性。负值意味着预测与目标相反,正值意味着预测与目标一致。它用于衡量机器生成的评价分数与真人专家标记分数之间的相关性。数值接近 1 则表示强相关性。在 SpeechOcean762 数据集中,每个样本均由 5 名 LE 单独标记。之后针对所有 2500 个评价样本,每 2 名 LE 之间的 PCC 都进行平均,作为真人评分的校验。实验结果如图 3 所示,通过利用 OR,微软语音评测模型在与头部厂商的商业语音评测服务横向对比中取得了最佳成绩,而且在 PCC 指标上进一步缩小了与真人评测的差距。

图3:SpeechOcean762 数据集的实验结果
语音评测功能助力教与学,满足多元教学场景
目前,微软语音评测支持十七种语言和口音,包括英语(美国)、英语(英国)、英语(澳大利亚)、法语(法国)、西班牙语(西班牙)、西班牙语(墨西哥)、德语(德国)、中文(普通话)和日语(日本)的通用版,以及其它多种语言口音的预览版。
同时,语音评测已集成在微软 Immersive Reader 的 Reading Coach,作为教师助教提升教学效率;在微软 Teams 的 Speaker Progress功能中,语音评测可以成为学生的陪练,助力学生提高外语朗读流畅性;PowerPoint Coach能够在演练过程中向演讲者提供口语词汇的正确发音建议。
Berlitz是全球领先的语言培训公司,通过使用 Azure 语音识别和语音评测功能提供平台产品,用户可以实时收到关于发音准确性和流畅度的详细反馈,随时随地灵活练习和完善他们的发音。全球语言学习社区 HelloTalk将学习者与来自世界各地的母语用户联系起来,通过语音评测功能,学习者可以提升发音准确度,并在此过程中结交新朋友,更加沉浸于目标语言的文化中。
此外,培生的朗文英语插件通过语音评测为不同水平的学生提供个性化的等级测试功能和学习材料建议;印度教育科技公司BYJU利用语音评测开发了英语语言应用(ELA),帮助学生以个性化的方式学习英语。
随着以 ChatGPT 为代表的大语言模型等前沿技术的逐步成熟,将为外语教学场景带来更多可能。未来,在确保隐私安全、合法合规且符合道德伦理的前提下,学生将有机会拥有更加个性化、沉浸式的陪练体验,教育机构则能为老师提供教学助理,因材施教。

图4:ChatGPT 与多种应用集成,将为教学方式带来更多可能
测试你的语音发音水准
你可以尝试使用微软 Azure 云账号和语音服务账号登录微软语音工作室,无需编写程序即可体验口语评测功能,用更直观的交互界面评测语音流利程度和发音准确性。如果你没有账号,可以免费注册微软语音服务。
以下更多资源能够帮助你将语音功能添加到语言学习应用中:
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。