AI干掉声优?音频大模型追逐“图灵时刻”

七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不断前进。

AI对物理世界的探索无疑是当下的热门话题。以ChatGPT和Sora为代表的AIGC展现出了令人震撼的表达能力,Sora更被认为是AI感知物理世界的初步探索。不过,上海大学计算机科学与技术系教授武星在璞跃中国日前举办的以“AIGC赋能产业创新”为主题的Global Tech Network活动上表示,“我更赞同图灵奖获得者杨立昆的观点:Sora提示词中生成的大部分看起来逼真的视频并不表明视频理解了物理世界。”

喜马拉雅珠峰AI科技产品研发总监吕睿韬也持类似的观点,“Sora的表达虽然很好,但它本质是假装出来的,并没有真正理解世界的规则。”

AI与物理世界交互一般可以通过视频与音频,相比之下,音频似乎能够更早达到图灵时刻。

“目前音频产业界达成了共识:第一,未来一定是实时跨语种语音交互,这件事情会提前发生;第二是语音表达的人格化,现在所有的AI都在装作是人,但是音频模型到30B以上的时候,真的可能超越人。”吕睿韬在活动上表示,“喜马拉雅每天播放量的10%是AI大模型做的,(大家已经)分不出是真人还是AI了,这是音频大模型能力的涌现。”

“2023年所有的行业里的音频大模型其实都只复刻了音色,但这只占30%,并不是完全复刻人。”吕睿韬介绍称,“我们现在在做的是15秒60个字能够实现从腔调、口吻、音色,包括情感信息都可以学习到、极速生成的大模型。”

音频大模型不仅可以做语音,同时可以做音效和音乐,目前喜马拉雅正围绕主营业务做语音,包括对话形式,以及多角色、多情感的演绎能力等。吕睿韬称,去年国内很多短剧出海都是喜马拉雅在做的配套,短剧是有声书的视觉版,去掉短剧里的视觉,其实就是有声书,“如何让AI把有声书演好,这是当前的命题。”