Stable AI推出可透過文字描述生成44.1kHz規格、長度達3分鐘立體音訊的Stable Audio 2.0
推出Stable Diffusion影像生成工具的人工智慧业者Stable AI,近期宣布推出其新款语音生成模型Stable Audio 2.0,将能透过文字产生时间长度达3分钟的44.1kHz规格立体声音讯,相比先前版本仅能产生45秒明显有大幅成长。
Stable Audio 2.0跟1.0版本一样,都是透过AudioSparx收录超过80万组音讯资料进行训练,除了可透过文字产生音讯内容,更可透过上传参考音讯样本,让使用者透过自然语言描述方式生成不同音讯内容,并且透过风格转换工具进行后续调整。
而Stable Audio 2.0可产生音质达44.1kHz规格的立体声音讯,同时长度更可长达3分钟,几乎是多数歌曲常见长度,预期可让更多创作者生成所需配乐、音讯内容。
目前Stable Audio 2.0已经对外免费开放使用,使用者能透过Stable AI或Google帐号登入后操作。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》