相似度高达 99.8%!火山语音发布全新自研语音合成模型 PortaSpeech 2

摘要

火山引擎语音合成 VTTS2.0 版本正式发布, 能力再升级!

火山引擎语音合成 VTTS2.0 版本正式发布, 能力再升级!

VTTS2.0 版本采用火山语音团队全新自研的语音合成模型 PortaSpeech 2 (下文简称:PS2), 由当下流行的基础模型架构 PortaSpeech 原班人马打造。为满足各种业务场景和客户需求,PS2 在第一代模型的基础上, 着重对音质韵律、多情感、端云能力以及克隆等进行了大规模升级。经评测,PS2 合成效果与真人录音相似度高达 99.8%, 其中离线合成不仅支持多情感多风格, 品质也与在线合成呈现出高度一致性。

图 1:社区开源版 PortaSpeech

首发离线多情感多风格 品质媲美在线实现无感切换

离线合成是指用户在无网状态下通过本地设备实时进行语音合成, 具备实时性和隐私保护的优势, 虽然这种离线方式消除了对网络连接的依赖, 用户可以在任何时间、任何地点进行合成, 但往往很难与在线合成相媲美。经过深入的训练与优化,PS2 打破传统的单一化低品质的离线效果, 具备了与在线合成的品质并具有多情感、多风格能力, 让用户在无网、弱网状态下也能够享受到极致的语音合成体验。

作为业界首个支持多情感多风格的端云一体模型,PS2 的端云侧同时兼具「三高」, 即高品质、高一致和高性能。

PS2 端侧能支持的情感、风格范围非常广泛, 包括但不限于开心、悲伤、愉悦、抱歉、撒娇、鼓励等。

此外基于端云一体的架构设计和生成式蒸馏的训推策略,PS2 的端云侧可同时兼具高质量和音质一致性, 实现用户在端侧和云侧之间切换时几乎无感知;并且从各维度充分考虑了用户在不同场景下的需求, 确保了端到云的效果在各个环节都能够保持高度一致。实际使用中, 会根据用户的操作和网络状态选择最优模型进行语音合成, 保障用户在任何环境下都能享受到流畅的语音合成体验。

为了最大程度提升 PS2 在资源利用率和性能方面的成绩, 为用户带来更为稳定和高效的使用体验, 火山语音团队在训练阶段, 针对不同模型特点采用 Int8 和 fp16 量化训练, 有效降低模型占用空间并为将来在多种硬件设备上提供高速推理能力奠定基础;在推理阶段, 支持流式推理以降低处理首批数据时的延迟, 提升系统响应速度和实时性, 为用户带来更流畅的体验。性能评测如下表:

高度还原 在线合成与真人相似度高达 99.8%

除了多重技术方向的创新升级之外, 新晋的 PS2 模型在云端应用中也展现出了高品质的语音合成能力以及效果。无论是与真人录音相比较, 还是与其他语音合成模型进行对比,PS2 在各类场景中均有惊艳表现。

火山语音团队是如何实现如此惊艳的效果?

聚焦模型结构与训推范式创新 PS2 带来合成技术新突破

「模型结构升级」模型结构方面,PS2 引入了全新的中间声学表征、声学模型和声码器。相较于从前,PS2 根据语音数据本身的特点, 使用了更加精细的声学特征 HiFiSpec。可以极大保留训练数据的音高、音频等细节信息, 提高模型在音质和韵律的生成上限, 使生成的语音音质更加清亮、饱满和稳定。

具体来说,PS2 的声学模型根据 HiFiSpec 数据本身的特点, 设计了兼具长短时依赖的编解码器, 引入了基于隐韵律表征预测的对抗生成式神经网络;同时使用蒙特卡洛采样对隐韵律表征分布进行高精度和高效近似, 允许其最大程度还原 HiFiSpec 的真实分布和多样性, 使合成的语音更接近自然状态下的人类声音。声码器方面,PS2 优化了音频波形分布拟合目标, 同时借助 HiFiSpec 的高表达性, 重现极致音色和音质效果。

图 2:火山语音新一代 PortaSpeech 2 模型框架图

「训推范式升级」训推范式方面,PS2 推翻了以往语音合成模型预训练和微调的传统范式, 转而采用新型自研教师-学生模型训练范式。为了更好地拟合真实的语音分布,PS2 的教师模型会自动根据不同业务场景特性, 动态结合类似 GPT 的上下文学习 (In-context learning) 和微调学习 (finetuning) 方法, 快速完成新音色、场景和情感的训练。

为了实现极致的模型性能和尺寸,PS2 还进一步提出了一种名为「生成式蒸馏」的方案。即完成训练的教师模型会将它学到的语音数据分布通过分布形状规整和长尾裁剪等方式, 将最适用具体业务场景的语音分布传授给学生模型, 从而允许学生模型在极小的模型参数下, 生成的语音质量和韵律几乎与教师模型无异。此外, 学生模型还可以完美继承教师模型的诸多能力, 包括多语言和多情感等, 可以胜任各种端上和端云混合场景。训练数据方面, 除了火山语音内部录制的大量精品数据以外,PS2 还使用万小时以上私有版权语音数据, 借助高效先进的模型架构和训推范式, 可以在仅有少量数据下实现表现力、情感和音色的迁移, 满足绝大多数场景需求。

图 3:生成式「教师-学生」模型蒸馏

火山语音团队正不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业, 已覆盖汽车、金融、有声阅读、视频配音等众多应用场景, 技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上, 并助力多家行业头部企业实现 AI 语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合, 持续为用户体验和业务增长注入创新势能, 以实现更大价值。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。