Stability AI发布新音频模型可生成超六分钟歌曲
本文基于公开英文报道整理编译,原文链接见文末。
- 主题:AI 进展
- 来源:TechCrunch
- 原文标题:Stability AI releases a new audio model that can create 6-minute songs
- 原始发布时间:2026-05-20 16:01:00 +0800
- 整理时间:2026-05-26 18:08:41 +0800
摘要
据 TechCrunch 报道,Stability AI 推出名为 Stability Audio 3.0 的新一代音频模型家族,最高规格模型可生成超过 6 分钟的专业级音乐作品。该系列共包含四个模型版本,其中小型模型支持端侧运行并生成最长 2 分钟音频,中型与大型模型则可完成 6 分 20 秒的完整乐曲创作。
导语
Stability AI 日前发布 Stability Audio 3.0 音频模型家族,进一步扩展其在生成式音频领域的产品线。按照公司说法,旗舰版本已可生成超过 6 分钟的专业级音乐,而部分小型模型还面向端侧场景,支持更轻量的声音与音乐生成,这一能力也较 2024 年推出的 Stable Audio 2.0 明显提升。
正文
四款模型亮相
此次 Stability AI 在 Stability Audio 3.0 名下共发布四款新模型,分别为 small SFX、small、medium 和 large。其中,small SFX 与 small 参数规模均为 4.59 亿,medium 为 14 亿,large 为 27 亿。根据官方介绍,这一系列覆盖从音效生成到完整音乐创作的不同需求,形成了较为清晰的产品分层。
生成时长提升
在生成能力方面,small SFX 与 small 两款小模型适合端侧声音和音乐生成,单次可输出最长 2 分钟内容。medium 与 large 则可生成时长 6 分 20 秒的完整作品,并尽量保持音乐结构与旋律连贯性。相比 2024 年发布的 Stable Audio 2.0,新版本可生成内容的长度已提升至两倍以上。
开放权重策略
Stability AI 表示,将以开放权重形式提供 small SFX、small 和 medium 三款模型,供用户使用和修改。作为对比,该公司在 2024 年推出的 Stable Audio Open 最高仅支持约 47 秒音乐生成。就公开可用版本而言,Stability Audio 3.0 显示出明显进步,也进一步强化了其在开放生成式音频工具上的布局。
要点速览
- Stability AI 推出 Stability Audio 3.0,新系列共包含四款音频生成模型。
- large 模型参数规模达 27 亿,官方称可生成超过 6 分钟的专业级音乐。
- small SFX 与 small 均为 4.59 亿参数,适合端侧生成最长 2 分钟音频。
- medium 和 large 可输出 6 分 20 秒完整作品,生成时长较 Stable Audio 2.0 翻倍以上。
- small SFX、small 与 medium 将以开放权重方式提供,支持外部使用与修改。
