☰

Stable AI推出可透過文字描述生成44.1kHz規格、長度達3分鐘立體音訊的Stable Audio 2.0

推出Stable Diffusion影像生成工具的人工智慧业者Stable AI，近期宣布推出其新款语音生成模型Stable Audio 2.0，将能透过文字产生时间长度达3分钟的44.1kHz规格立体声音讯，相比先前版本仅能产生45秒明显有大幅成长。

Stable Audio 2.0跟1.0版本一样，都是透过AudioSparx收录超过80万组音讯资料进行训练，除了可透过文字产生音讯内容，更可透过上传参考音讯样本，让使用者透过自然语言描述方式生成不同音讯内容，并且透过风格转换工具进行后续调整。

而Stable Audio 2.0可产生音质达44.1kHz规格的立体声音讯，同时长度更可长达3分钟，几乎是多数歌曲常见长度，预期可让更多创作者生成所需配乐、音讯内容。

目前Stable Audio 2.0已经对外免费开放使用，使用者能透过Stable AI或Google帐号登入后操作。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

相关资讯