Azure AI的又一里程碑！Neural TTS新模型呈现真人般情感饱满的AI语音

在人与人之间的对话中，即使是同样的字句，也会因为所处情景和情感的不同而表现出丰富的抑扬顿挫，而这种动态性恰恰是各种AI合成语音的“软肋”。相比于人类讲话时丰富多变的语气，AI语音的“心平气和”往往给人带来明显的违和感。

如何让AI语音有效模仿人类对话的丰富动态与情感，已成为全球研究者的共同挑战。就在不久前，微软Azure Neural TTS（神经网络文本转语音）推出的新一代模型“Uni-TTS v4”在这一领域取得了里程碑式的重大突破。在“2021国际语音合成大赛（Blizzard Challenge 2021）”的测试中，Uni-TTS v4的语音表现与通用数据集上的自然语音相比几乎没有明显差别，展现出足以“叫板”真人对话的实力。

Uni-TTSv4的研究出发点是XYZ-代码，它是三种认知属性的联合表示：单语文本（X），音频或视觉感官信号（Y），以及多语言（Z）。关于这些努力的更多信息，请阅读XYZ-代码的博文。

“耳听”为实，让我们从以下几段TTS和真人对话的对比中，感受新模型带来的逼真语音表现。

En-US(Jenny):

The visualizations of the vocal quality continue in a quartet and octet.

真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Jenny_NonTTS-recording.wav

Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Jenny_TTS_new.wav

En-US(Sara):

Like other visitors, he is a believer.

真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Sara-NonTTS-recording.wav

Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Sara-TTS-new.wav

Zh-CN(Xiaoxiao):

另外，也要规避当前的地缘局势风险，等待合适的时机介入。

真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Xiaoxiao-NonTTS-RECORDING.wav

Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Xiaoxiao-TTS-NEW-Wave.wav

Azure AI的又一里程碑！Neural TTS新模型呈现真人般情感饱满的AI语音

图注：上图为Uni-TTS v4在“2021国际语音合成大赛（Blizzard Challenge 2021）”上的测试结果。这项TTS领域的全球盛事汇集了全球顶级专家，每次都会邀请数百名参会者对多个TTS系统进行大规模MOS测试，称得上是全球TTS“试金石”。相关详细信息可以参看微软为此次活动发表的论文《DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2021》。

如果体验完以上示例后还觉得意犹未尽，欢迎在Azure TTS在线服务中使用自创文本来创建新的demo。目前Uni-TTS v4可支持TTS语言库中7个语种的8个语音，研发团队还将持续使用最新模型优化Neural TTS已支持的其它语言以及自定义神经语音，以便能让用户通过Azure TTS API、 Microsoft Office和Edge browser直接获得更出色的新一代TTS语音。

Uni-TTS v4之所以能成为Azure AI的又一里程碑，在于其出色拟真语音表现的背后，对TTS语音基础建模的大幅革新。

如同开篇所说，TTS语音与真人的差距在于难以模仿人类对话的丰富动态。人类在不同的情绪或场景下，对同一个词的发音方法可能完全不同，而且其变化规律在不同语种中也千差万别。

TTS语音的表现依赖于以各种声学参数进行建模，但这些参数很难有效地对人类语音声学频谱上的所有粗粒度和细粒度细节进行建模。另一方面，TTS是一种典型的一对多映射，往往需要使用多种语音风格（如音调、语速、讲话人、韵律、风格等等）来输出同一个文本内容。总之，能否为这些“变量”进行有针对性的建模，是提升合成语音表现力和真实度的重要因素。

为了让TTS在以上两方面获得提升，Uni-TTS v4在声学建模中引入了两项重要更新。通常，transformer模型用来学习全局交互，而卷积神经网络则有效地发现局部相关性。于是研究团队首先采用了一个带有transformer和卷积块的新架构，以更好地模拟声学模型中的局部和全局依赖关系；其次，从显性视角（身份ID、语种ID、音调、语速）和隐性视角（话语级和音素级韵律）系统地对变量信息进行建模。这些视角分别使用监督学习和无监督学习，确保端到端的音频具有足够自然的表现力。

图注：Uni-TTS v4 的声学模型和声码器示意图。首先使用文本编码器对文本进行编码，然后将隐性和显性信息添加到文本编码器的隐藏嵌入（hidden embeddings）中，再使用频谱解码器预测梅尔声谱图。最后，通过声码器将梅尔声谱图转换为音频样本。

作为微软Azure认知服务中的强大语音合成功能，Neural TTS可用于帮助开发者将文本转换为真人一般的逼真自然语音，常被用于语音助手场景、文字朗读功能，及作为辅助性工具等等，同时也被整合到微软的Edge Read Aloud、Immersive Reader和Word Read Aloud等旗舰产品中，还被AT&T、Duolingo、Progressive等众多客户采用。Neural TTS已拥有330多个音色，支持来自不同国家和地区的近130种语言或方言。用户和企业可以通过搜索"Azure TTS"进入产品网站，测试体验Neural TTS的丰富预设语音，抑或录制并上传自己的样本，来创建独有的自定义语音。

来源：业界供稿

Azure

0赞

好文章，需要你的鼓励

人工智能

模型优化

大语言模型

2025-06-05

zip2zip：通过令牌压缩实现大语言模型的推理时自适应词汇表

zip2zip是一项创新技术，通过引入动态自适应词汇表，让大语言模型在推理时能够自动组合常用词组，显著提高处理效率。由EPFL等机构研究团队开发的这一方法，基于LZW压缩算法，允许模型即时创建和使用"超级tokens"，将输入和输出序列长度减少20-60%，大幅提升推理速度。实验表明，现有模型只需10个GPU小时的微调即可适配此框架，在保持基本性能的同时显著降低计算成本和响应时间，特别适用于专业领域和多语言场景。

人工智能

自然语言处理

仇恨言论无毒化

2025-06-05

LLM循环助力：创建PARADEHATE数据集实现仇恨言论无毒化

这项研究创新性地利用大语言模型(LLM)代替人类标注者，创建了PARADEHATE数据集，用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美，随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示，在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异，证明LLM生成的数据可作为人工标注的高效替代方案，为创建更安全、更具包容性的在线环境提供了新途径。

3D编辑

视觉一致性

渐进式视角范式

2025-06-05

Pro3D-Editor：一种实现3D模型一致精准编辑的渐进式视角方法

这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor，一种新型3D编辑框架，通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑，要么同时编辑多个固定视角，都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块：主视角采样器自动选择最适合编辑的视角，关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角，全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。

ComposeAnything：来自INRIA的人工智能新突破，让AI图像生成理解复杂空间关系

Azure AI的又一里程碑！Neural TTS新模型呈现真人般情感饱满的AI语音

来源：业界供稿

2022

01/27

15:17

分享

点赞

强化学习存在推理效率问题，阿里千问团队发明推理二八法则，解决AI选择困难症

Victoria’s Secret 遭遇服务中断，正应对安全事件

诺基亚贝尔亮相2025中国光网络研讨会，探讨AI在网络基础设施中的潜能

十年专利纠纷如何可能颠覆 Uber 业务

Automattic 表示将在暂停后恢复对 WordPress 的贡献

荷兰企业在应对不断加剧的威胁下，网络韧性落后

使用 Edits 指南：Meta 全新短视频编辑利器，挑战 CapCut

将 ROCs 放在 SOCs 之前 —— Qualys 对公共部门的建议

全民基本收入：AI时代的商业案例

PTC推出Creo 12以加快设计速度、提高生产力和协作能力

Qorvo推出高输出功率倍增器QPA3311和QPA3316，加速DOCSIS4.0向更智能高效演进

谷歌再次在融合能源领域押注 TAE Technologies

Azure AI Week 直播课表公布，12月10 -12日线上见

微软、谷歌云和AWS第三季度云业绩对决

微软Azure上线基于Arm架构的Cobalt 100 CPU虚拟机

微软精心打造Rust虚拟机管理程序，为Azure工作负载提供动力

微软公布详尽计划，将分阶段对Azure用户强制做出MFA要求

市场分析：AWS、微软和谷歌云2024年第二季度云业绩对决

微软公布Azure Logic应用混合部署预览，“睽违已久”的C#内联操作终于落地

Oracle Autonomous Database服务登陆Azure

西门子与微软合作实现数字孪生定义语言标准化

Dell APEX File Storage for Microsoft Azure助力企业实现全面AI

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: