微软推出Hierarchical Transformer 实现更高准确率的语音评测

微软承诺发展“负责任的人工智能”，因此在设计和开发人工智能产品的过程中，始终恪守这一原则。本文将为大家介绍微软语音评测模型的整体架构，深入解析底层Hierarchical Transformer技术。

对于语言学习者来说，练习发音并获得及时准确的反馈，是提高口语水平的重要环节。多年来，微软一直深耕基于 Azure 认知服务的语音功能，不断优化语音评测功能的底层技术，从准确率、流畅度、完整性和语音语调等方面，提供更实用的反馈，赋能教育行业，提升教与学水平。微软承诺发展“负责任的人工智能”，因此在设计和开发人工智能产品的过程中，始终恪守这一原则。本文将为大家介绍微软语音评测模型的整体架构，深入解析底层 Hierarchical Transformer 技术。

语音评测底层技术剖析

微软语音评测功能利用 Azure 神经网络语音合成（Azure Neural TTS）、Transformer、有序回归和 Hierarchical 架构提升了评测的准确率，并且获得了单词级别的准确性提升。与此同时，基于神经网络的GOP（goodness of pronunciation）方法在高质量的声学模型支持下，其表现与真人专业评测水平极为相近。Azure 语音识别（STT）经过大规模真实数据的训练，微软可以利用高质量的 GOP 特征来训练发音错误检测模型。

模型整体架构：攻克数据稀缺难题，模型 PPC 系数大幅提升

语音错误检测面临的主要挑战之一是难以获得高质量的标注数据。为了克服数据稀缺问题（包括正面样本和负面样本的不均衡），微软使用 Azure Neural TTS 生成训练数据，即模拟人类辨别发音错误的过程。在此基础上，使用增强数据进行预训练得到源模型，然后使用标注数据对源模型进行微调。此外，在数据标注阶段，聘请多名语言专家（LE, Langurage Expert）根据相同的评测体系，单独对数据进行标注。两个独立 LE 之间的皮尔逊相关系数（Pearson Correlation Coefficients，PCC）必须大于给定的阈值，以保证标注质量。对于某些低资源区域，利用 Azure Neural TTS 强大的数据生成能力，同样可以采用这种两阶段建模方式提供支持。结合这些创新，模型在 SpeechOcean762 数据集上的 PCC 从 0.5661 提高到 0.6562。

微软推出Hierarchical Transformer 实现更高准确率的语音评测

图1：语音错误检测系统架构

构建 Hierarchical Transformer：兼顾全文与单词级别语音评测

微软将来自于 Azure STT 系统声学模型的 Senone、音素和单词特征作为Hierarchical Transformer 模型的输入特征。Senone 信息用于检测细粒度的发音模式，自注意力机制重点聚焦于 Senone 和音素，而单词级别的特征则为当前单词评分提供全局视角（bird’s-eye view）。对齐块用于显式连接 Senone 和音素信息，让Transformer 理解它们之间的隐式关系。

对于单词级特征，模型中采用了单词后验分数、语句级信噪比（SNR）、时长、辅音和元音属性和统计信息等指标进行评测。音素特征比单词特征简单得多，仅包括音素得分和时长。而对于 Senone 特征，仅使用 Senone 分数和状态。通过这种精心设计的特征和模型架构，粗粒度和细粒度特征都将有助于 Transformer 对发音分数进行建模。

微软推出Hierarchical Transformer 实现更高准确率的语音评测

图2：发音错误检测Hierarchical Transformer总体框架

Hierarchical Transformer 模型的结构（b）Transformer 块的详细信息（c）连接 senone 和音素信息的对齐块

引入有序回归，提升语句级别的流利性与准确性

微软在语音评测的准确率评估上进一步引入有序回归（Ordinal Regression，OR），并在 SpeechOcean762 数据集验证了结果。

OR 在之前的研究工作中已用于语句级流利性及准确性的语音评测。与传统的机器学习任务相比，OR 表现得更好，因为它没有将语音评测任务当作分类或回归任务。OR 旨在预测比较样本之间的排序信息——也就是说，它对两个样本进行比较并判断哪一个更好。这种二元偏好测试比传统方法更容易、更快、且更准确。此外，打分本身就是一种在得分上的自然排序，这种二元偏好测试理论上也更符合人类的行为习惯。

为了与其他系统公平比较，微软在 SpeechOcean762 公开数据集上训练了一些模型，该数据集分别包含 2500 个标注良好的训练样本和评价样本。评价指标 PCC 赋予一个介于-1 和 1 之间的值，其中 0 表示无相关性。负值意味着预测与目标相反，正值意味着预测与目标一致。它用于衡量机器生成的评价分数与真人专家标记分数之间的相关性。数值接近 1 则表示强相关性。在 SpeechOcean762 数据集中，每个样本均由 5 名 LE 单独标记。之后针对所有 2500 个评价样本，每 2 名 LE 之间的 PCC 都进行平均，作为真人评分的校验。实验结果如图 3 所示，通过利用 OR，微软语音评测模型在与头部厂商的商业语音评测服务横向对比中取得了最佳成绩，而且在 PCC 指标上进一步缩小了与真人评测的差距。

微软推出Hierarchical Transformer 实现更高准确率的语音评测

图3：SpeechOcean762 数据集的实验结果

语音评测功能助力教与学，满足多元教学场景

目前，微软语音评测支持十七种语言和口音，包括英语（美国）、英语（英国）、英语（澳大利亚）、法语（法国）、西班牙语（西班牙）、西班牙语(墨西哥)、德语(德国)、中文（普通话）和日语（日本）的通用版，以及其它多种语言口音的预览版。

同时，语音评测已集成在微软 Immersive Reader 的 Reading Coach，作为教师助教提升教学效率；在微软 Teams 的 Speaker Progress功能中，语音评测可以成为学生的陪练，助力学生提高外语朗读流畅性；PowerPoint Coach能够在演练过程中向演讲者提供口语词汇的正确发音建议。

Berlitz是全球领先的语言培训公司，通过使用 Azure 语音识别和语音评测功能提供平台产品，用户可以实时收到关于发音准确性和流畅度的详细反馈，随时随地灵活练习和完善他们的发音。全球语言学习社区 HelloTalk将学习者与来自世界各地的母语用户联系起来，通过语音评测功能，学习者可以提升发音准确度，并在此过程中结交新朋友，更加沉浸于目标语言的文化中。

此外，培生的朗文英语插件通过语音评测为不同水平的学生提供个性化的等级测试功能和学习材料建议；印度教育科技公司BYJU利用语音评测开发了英语语言应用（ELA），帮助学生以个性化的方式学习英语。

随着以 ChatGPT 为代表的大语言模型等前沿技术的逐步成熟，将为外语教学场景带来更多可能。未来，在确保隐私安全、合法合规且符合道德伦理的前提下，学生将有机会拥有更加个性化、沉浸式的陪练体验，教育机构则能为老师提供教学助理，因材施教。

微软推出Hierarchical Transformer 实现更高准确率的语音评测

图4：ChatGPT 与多种应用集成，将为教学方式带来更多可能

测试你的语音发音水准

你可以尝试使用微软 Azure 云账号和语音服务账号登录微软语音工作室，无需编写程序即可体验口语评测功能，用更直观的交互界面评测语音流利程度和发音准确性。如果你没有账号，可以免费注册微软语音服务。

以下更多资源能够帮助你将语音功能添加到语言学习应用中：

阅读“语言学习”博客，了解更多语音应用场景
在 GitHub 上试用发音评价的演示版和示例代码
发音评价：使用发音评价-Azure认知服务| Microsoft Learn
语音转文本：语音转文本概述-语音服务-Azure 认知服务|Microsoft Learn
文本转语音：文本转语音概述-语音服务-Azure 认知服务| Microsoft Learn
定制语音：自定义神经网络语音概述-语音服务-Azure认知服务| Microsoft Learn
联系我们获取反馈或功能：mspafeedback@microsoft.com

来源：业界供稿

微软

0赞

好文章，需要你的鼓励

微软推出Hierarchical Transformer 实现更高准确率的语音评测

来源：业界供稿

2023

08/14

14:02

分享

点赞

从传统CRM迈向智能化客户互动的转型之路

Wonder与Zipline合作，无人机送餐服务将于2027年在德克萨斯州上线

无人机卫星通信突破：轻量化终端助力野火响应

Google承认AI发展速度已超过电网脱碳速度

欧盟拟将AWS和Azure列为数字市场"守门人"

隆湫资本完成对「蓝芯算力」Pre-B轮超3亿元独家投资

Visa、Stripe等140余家机构联合推出Open USD稳定币，剑指Tether

Anthropic发布Claude Sonnet 5大语言模型，编程能力与安全性双升级

Wayve以85亿美元估值启动8500万美元员工股权流动计划

遗留系统与数据缺口制约香港企业财资中心发展

美国要求OpenAI限制其最强大AI模型的访问权限

两党州长达成共识：数据中心建设费用不应转嫁给普通用户

微软开源旗下的Phi-4小型语言模型

微软打造的迷你AI PC问世

微软计划在2025财年斥资800亿美元建设人工智能数据中心

让实时互动和AI，同频共振

微软发布主要使用合成数据训练的Phi-4语言模型

微软预览新型节水数据中心设计

微软Ignite大会展现企业AI的多样化形态

Azure AI Week 直播课表公布，12月10 -12日线上见

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软率先拿下HBM驱动的AMD CPU供货

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: