Meta 发布 Voicebox 2

2025-12-21 18:07| 发布者: aisuanli 2 0

摘要: Meta 未以 “Voicebox 2” 命名发布正式迭代版，其 Voicebox 的继任者是 2023 年 11 月 30 日推出的Audiobox，常被外界称为 Voicebox 2.0，核心升级在于统一语音、音效与声景的生成 / 编辑能力，支持语音 + 文本双输 ...

Meta 未以 “Voicebox 2” 命名发布正式迭代版，其 Voicebox 的继任者是 2023 年 11 月 30 日推出的Audiobox，常被外界称为 Voicebox 2.0，核心升级在于统一语音、音效与声景的生成 / 编辑能力，支持语音 + 文本双输入控制，可控性与场景覆盖大幅扩展。

核心定位与关键升级

Audiobox 基于 Voicebox 的 Flow‑Matching 框架与引导声音生成目标，从 “语音生成” 拓展为 “全音频生成”，核心突破如下：

维度 Voicebox Audiobox（Voicebox 2.0）

核心能力语音生成、编辑、降噪、跨语言风格迁移（6 种语言）统一语音 / 音效 / 声景生成与编辑；支持自然语言描述生成声音

输入方式语音样本 + 文本语音样本 + 自然语言提示（双输入精准控制风格 / 环境 / 情感）

生成范围仅语音语音、音效（如狗叫、雷声）、声景（如溪流鸟鸣）

风格可控性依赖语音样本文本描述定义风格（如 “大教堂中悲伤缓慢的语音”）

性能表现零样本 TTS 优于 VALL‑E，速度快 20 倍 FAD 降低约 50%，风格相似度较 Voicebox 提升 30%+

核心功能与应用场景

描述生成语音：输入语音样本 + 文本提示，生成指定风格 / 环境 / 情感的语音（如 “在火车站嘈杂环境中兴奋地播报”）。

描述生成音效 / 声景：纯文本提示生成音效（如 “清脆的玻璃杯破碎声”）或声景（如 “森林雨声 + 远处溪流”）。

语音重风格化：修改现有语音的声学环境（如添加回声）、语速、情感，无需重录。