在人与人之间的对话中,即使是同样的字句,也会因为所处情景和情感的不同而表现出丰富的抑扬顿挫,而这种动态性恰恰是各种AI合成语音的“软肋”。相比于人类讲话时丰富多变的语气,AI语音的“心平气和”往往给人带来明显的违和感。
如何让AI语音有效模仿人类对话的丰富动态与情感,已成为全球研究者的共同挑战。就在不久前,微软Azure Neural TTS(神经网络文本转语音)推出的新一代模型“Uni-TTS v4”在这一领域取得了里程碑式的重大突破。在“2021国际语音合成大赛(Blizzard Challenge 2021)”的测试中,Uni-TTS v4的语音表现与通用数据集上的自然语音相比几乎没有明显差别,展现出足以“叫板”真人对话的实力。
Uni-TTSv4的研究出发点是XYZ-代码,它是三种认知属性的联合表示:单语文本(X),音频或视觉感官信号(Y),以及多语言(Z)。关于这些努力的更多信息,请阅读XYZ-代码的博文。
“耳听”为实,让我们从以下几段TTS和真人对话的对比中,感受新模型带来的逼真语音表现。
En-US(Jenny):
The visualizations of the vocal quality continue in a quartet and octet.
真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Jenny_NonTTS-recording.wav
Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Jenny_TTS_new.wav
En-US(Sara):
Like other visitors, he is a believer.
真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Sara-NonTTS-recording.wav
Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Sara-TTS-new.wav
Zh-CN(Xiaoxiao):
另外,也要规避当前的地缘局势风险,等待合适的时机介入。
真人录音: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Xiaoxiao-NonTTS-RECORDING.wav
Uni-TTS v4: https://www.microsoft.com/en-us/research/uploads/prod/2021/12/Xiaoxiao-TTS-NEW-Wave.wav
图注:上图为Uni-TTS v4在“2021国际语音合成大赛(Blizzard Challenge 2021)”上的测试结果。这项TTS领域的全球盛事汇集了全球顶级专家,每次都会邀请数百名参会者对多个TTS系统进行大规模MOS测试,称得上是全球TTS“试金石”。相关详细信息可以参看微软为此次活动发表的论文《DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2021》。
如果体验完以上示例后还觉得意犹未尽,欢迎在Azure TTS在线服务中使用自创文本来创建新的demo。目前Uni-TTS v4可支持TTS语言库中7个语种的8个语音,研发团队还将持续使用最新模型优化Neural TTS已支持的其它语言以及自定义神经语音,以便能让用户通过Azure TTS API、 Microsoft Office和Edge browser直接获得更出色的新一代TTS语音。
Uni-TTS v4之所以能成为Azure AI的又一里程碑,在于其出色拟真语音表现的背后,对TTS语音基础建模的大幅革新。
如同开篇所说,TTS语音与真人的差距在于难以模仿人类对话的丰富动态。人类在不同的情绪或场景下,对同一个词的发音方法可能完全不同,而且其变化规律在不同语种中也千差万别。
TTS语音的表现依赖于以各种声学参数进行建模,但这些参数很难有效地对人类语音声学频谱上的所有粗粒度和细粒度细节进行建模。另一方面,TTS是一种典型的一对多映射,往往需要使用多种语音风格(如音调、语速、讲话人、韵律、风格等等)来输出同一个文本内容。总之,能否为这些“变量”进行有针对性的建模,是提升合成语音表现力和真实度的重要因素。
为了让TTS在以上两方面获得提升,Uni-TTS v4在声学建模中引入了两项重要更新。通常,transformer模型用来学习全局交互,而卷积神经网络则有效地发现局部相关性。于是研究团队首先采用了一个带有transformer和卷积块的新架构,以更好地模拟声学模型中的局部和全局依赖关系;其次,从显性视角(身份ID、语种ID、音调、语速)和隐性视角(话语级和音素级韵律)系统地对变量信息进行建模。这些视角分别使用监督学习和无监督学习,确保端到端的音频具有足够自然的表现力。
图注:Uni-TTS v4 的声学模型和声码器示意图。首先使用文本编码器对文本进行编码,然后将隐性和显性信息添加到文本编码器的隐藏嵌入(hidden embeddings)中,再使用频谱解码器预测梅尔声谱图。最后,通过声码器将梅尔声谱图转换为音频样本。
作为微软Azure认知服务中的强大语音合成功能,Neural TTS可用于帮助开发者将文本转换为真人一般的逼真自然语音,常被用于语音助手场景、文字朗读功能,及作为辅助性工具等等,同时也被整合到微软的Edge Read Aloud、Immersive Reader和Word Read Aloud等旗舰产品中,还被AT&T、Duolingo、Progressive等众多客户采用。Neural TTS已拥有330多个音色,支持来自不同国家和地区的近130种语言或方言。用户和企业可以通过搜索"Azure TTS"进入产品网站,测试体验Neural TTS的丰富预设语音,抑或录制并上传自己的样本,来创建独有的自定义语音。
好文章,需要你的鼓励
人工智能代表着第四次工业革命的到来,它不仅是机械化工具,更是全球范围内增强、合作和颠覆的催化剂。AI已深度融入日常生活,在医疗、国防、金融和公共治理等领域发挥变革作用。与以往技术不同,AI能够增强人类决策能力,提升效率和创新。然而,算法偏见、网络安全威胁和隐私问题等风险不容忽视。未来AI发展需要政府、企业和学术界协调合作,建立伦理、法律框架,确保AI成为推动人类进步的积极力量。
腾讯微信AI团队开发的ComoRAG系统通过模仿人脑认知机制,让AI具备了动态记忆和循环推理能力,在长文本理解任务上相比传统方法准确率提升高达11%。该系统采用三层知识组织结构和五步认知循环过程,能够像侦探破案一样主动探索线索、整合信息、构建完整推理链条,特别在处理复杂叙事推理问题时表现优异,标志着AI从信息检索工具向智能推理伙伴的重要转变。
随着现代AI技术对数据中心基础设施提出新要求,"AI数据中心"一词使用日益频繁。然而,这一术语的定义仍不清晰,AI数据中心与传统数据中心的区别并不明显。AI数据中心通常具备更大容量、GPU加速硬件、优化网络设备、高效冷却系统等特征,但这些特性并非AI独有。与其投资专门的AI设施,企业或许应考虑改造现有数据中心来支持AI工作负载。
新加坡南洋理工大学团队开发的4DNeX系统实现了从单张照片生成完整4D动态场景的突破。该技术采用6D视频表示法融合RGB颜色和XYZ空间信息,构建了包含920万帧数据的4DNeX-10M大规模数据集,通过改进视频扩散模型实现15分钟内的高效生成,在动态程度和一致性指标上显著优于现有方法,为虚拟现实、影视制作等领域提供了新的技术路径。