Ai算力 门户 Ai资讯 查看内容

Meta 发布 Voicebox 2

2025-12-21 18:07| 发布者: aisuanli 2 0

摘要: Meta 未以 “Voicebox 2” 命名发布正式迭代版,其 Voicebox 的继任者是 2023 年 11 月 30 日推出的Audiobox,常被外界称为 Voicebox 2.0,核心升级在于统一语音、音效与声景的生成 / 编辑能力,支持语音 + 文本双输 ...
 Meta 未以 “Voicebox 2” 命名发布正式迭代版,其 Voicebox 的继任者是 2023 年 11 月 30 日推出的Audiobox,常被外界称为 Voicebox 2.0,核心升级在于统一语音、音效与声景的生成 / 编辑能力,支持语音 + 文本双输入控制,可控性与场景覆盖大幅扩展。
核心定位与关键升级
Audiobox 基于 Voicebox 的 Flow‑Matching 框架与引导声音生成目标,从 “语音生成” 拓展为 “全音频生成”,核心突破如下:
维度 Voicebox Audiobox(Voicebox 2.0)
核心能力 语音生成、编辑、降噪、跨语言风格迁移(6 种语言) 统一语音 / 音效 / 声景生成与编辑;支持自然语言描述生成声音
输入方式 语音样本 + 文本 语音样本 + 自然语言提示(双输入精准控制风格 / 环境 / 情感)
生成范围 仅语音 语音、音效(如狗叫、雷声)、声景(如溪流鸟鸣)
风格可控性 依赖语音样本 文本描述定义风格(如 “大教堂中悲伤缓慢的语音”)
性能表现 零样本 TTS 优于 VALL‑E,速度快 20 倍 FAD 降低约 50%,风格相似度较 Voicebox 提升 30%+
核心功能与应用场景
描述生成语音:输入语音样本 + 文本提示,生成指定风格 / 环境 / 情感的语音(如 “在火车站嘈杂环境中兴奋地播报”)。
描述生成音效 / 声景:纯文本提示生成音效(如 “清脆的玻璃杯破碎声”)或声景(如 “森林雨声 + 远处溪流”)。
语音重风格化:修改现有语音的声学环境(如添加回声)、语速、情感,无需重录。
音频编辑增强:保留 Voicebox 的降噪与内容替换能力,新增音效填充(如在雨声中加雷声)。
典型场景:播客配音、游戏音频、视频旁白、有声书制作、UI 音效设计等。


鲜花

握手

雷人

路过

鸡蛋
返回顶部