Stability AI发布新音频模型可生成超六分钟歌曲

本文基于公开英文报道整理编译，原文链接见文末。

主题：AI 进展
来源：TechCrunch
原文标题：Stability AI releases a new audio model that can create 6-minute songs
原始发布时间：2026-05-20 16:01:00 +0800
整理时间：2026-05-26 18:08:41 +0800

摘要

据 TechCrunch 报道，Stability AI 推出名为 Stability Audio 3.0 的新一代音频模型家族，最高规格模型可生成超过 6 分钟的专业级音乐作品。该系列共包含四个模型版本，其中小型模型支持端侧运行并生成最长 2 分钟音频，中型与大型模型则可完成 6 分 20 秒的完整乐曲创作。

导语

Stability AI 日前发布 Stability Audio 3.0 音频模型家族，进一步扩展其在生成式音频领域的产品线。按照公司说法，旗舰版本已可生成超过 6 分钟的专业级音乐，而部分小型模型还面向端侧场景，支持更轻量的声音与音乐生成，这一能力也较 2024 年推出的 Stable Audio 2.0 明显提升。

正文

四款模型亮相

此次 Stability AI 在 Stability Audio 3.0 名下共发布四款新模型，分别为 small SFX、small、medium 和 large。其中，small SFX 与 small 参数规模均为 4.59 亿，medium 为 14 亿，large 为 27 亿。根据官方介绍，这一系列覆盖从音效生成到完整音乐创作的不同需求，形成了较为清晰的产品分层。

生成时长提升

在生成能力方面，small SFX 与 small 两款小模型适合端侧声音和音乐生成，单次可输出最长 2 分钟内容。medium 与 large 则可生成时长 6 分 20 秒的完整作品，并尽量保持音乐结构与旋律连贯性。相比 2024 年发布的 Stable Audio 2.0，新版本可生成内容的长度已提升至两倍以上。

开放权重策略

Stability AI 表示，将以开放权重形式提供 small SFX、small 和 medium 三款模型，供用户使用和修改。作为对比，该公司在 2024 年推出的 Stable Audio Open 最高仅支持约 47 秒音乐生成。就公开可用版本而言，Stability Audio 3.0 显示出明显进步，也进一步强化了其在开放生成式音频工具上的布局。

要点速览

Stability AI 推出 Stability Audio 3.0，新系列共包含四款音频生成模型。
large 模型参数规模达 27 亿，官方称可生成超过 6 分钟的专业级音乐。
small SFX 与 small 均为 4.59 亿参数，适合端侧生成最长 2 分钟音频。
medium 和 large 可输出 6 分 20 秒完整作品，生成时长较 Stable Audio 2.0 翻倍以上。
small SFX、small 与 medium 将以开放权重方式提供，支持外部使用与修改。

原文链接

TechCrunch