用一句话生成语音、音效甚至完整声景。由 Meta 研发的新一代统一音频生成引擎,让零基础的创作者也能快速获得电影级声音素材。

核心能力速览
| 功能 | 输入方式 | 输出示例 |
|---|---|---|
| 语音合成 | 文本脚本+一句话描述音色/场景 | “年轻女记者,在地铁站内急促播报” |
| 音效生成 | 自然语言描述 | “远处闷雷滚动,伴随雨滴敲打铁皮屋顶” |
| 声景搭建 | 多元素混合描述 | “森林清晨,鸟鸣、溪流与轻风交织” |
| 语音重风格化 | 原声输入+文本提示 | 同一段朗读秒变“大教堂合唱”或“低声耳语” |
| 局部填充编辑 | 选区+文字 | 在雨声片段中插入“狗吠”并保持环境一致 |
技术亮点
- 统一模型架构:基于流匹配(Flow-Matching)的单模型,同时处理语音、音效与声景,无需切换工具。
- 双通道控制:声音示例锁定音色,自然语言文本决定风格、环境或情绪,实现“口型不变、氛围随心”。
- 零样本TTS:LibriSpeech 测试集相似度 0.745,跨说话人泛化能力优于专用模型。
- 高速采样:集成 Bespoke Solver,生成速度提升 25 倍,实时交互无压力。
- 隐形水印:帧级可追踪,抗压缩、抗剪辑,方便平台自动识别 AI 音频来源。
典型用法
- 播客后期:一键补齐缺失旁白,环境氛围与主播音色自动对齐。
- 游戏音效:用一句话批量产出“科幻舱门开启”“魔法水晶碎裂”等短音效。
- 视频配乐:按镜头描述生成背景声景,无需翻库即可随画面迭代。
- 无障碍朗读:为任意文本生成多情绪、多方言的语音副本,适配教育或助残场景。
访问与限制
目前 Audiobox 以研究预览版形式开放,需通过 Meta 审核后获取模型授权;网页体验版提供在线 Demo,可直接试用语音与音效生成,每日有免费额度。商业用途请等待后续许可证公告。



