shape-01shape-02shape-03shape-04shape-05shape-06shape-07shape-08shape-09shape-10shape-11
AI音频工具

Audiobox

Meta推出的免费开源AI语音模型,支持快速生成声音

标签:

用一句话生成语音、音效甚至完整声景。由 Meta 研发的新一代统一音频生成引擎,让零基础的创作者也能快速获得电影级声音素材。

Audiobox

 

核心能力速览

功能输入方式输出示例
语音合成文本脚本+一句话描述音色/场景“年轻女记者,在地铁站内急促播报”
音效生成自然语言描述“远处闷雷滚动,伴随雨滴敲打铁皮屋顶”
声景搭建多元素混合描述“森林清晨,鸟鸣、溪流与轻风交织”
语音重风格化原声输入+文本提示同一段朗读秒变“大教堂合唱”或“低声耳语”
局部填充编辑选区+文字在雨声片段中插入“狗吠”并保持环境一致

 

技术亮点

  • 统一模型架构:基于流匹配(Flow-Matching)的单模型,同时处理语音、音效与声景,无需切换工具。
  • 双通道控制:声音示例锁定音色,自然语言文本决定风格、环境或情绪,实现“口型不变、氛围随心”。
  • 零样本TTS:LibriSpeech 测试集相似度 0.745,跨说话人泛化能力优于专用模型。
  • 高速采样:集成 Bespoke Solver,生成速度提升 25 倍,实时交互无压力。
  • 隐形水印:帧级可追踪,抗压缩、抗剪辑,方便平台自动识别 AI 音频来源。

 

典型用法

  1. 播客后期:一键补齐缺失旁白,环境氛围与主播音色自动对齐。
  2. 游戏音效:用一句话批量产出“科幻舱门开启”“魔法水晶碎裂”等短音效。
  3. 视频配乐:按镜头描述生成背景声景,无需翻库即可随画面迭代。
  4. 无障碍朗读:为任意文本生成多情绪、多方言的语音副本,适配教育或助残场景。

 

访问与限制

目前 Audiobox 以研究预览版形式开放,需通过 Meta 审核后获取模型授权;网页体验版提供在线 Demo,可直接试用语音与音效生成,每日有免费额度。商业用途请等待后续许可证公告。

在线试用 Audiobox

相关导航