OpenAI发布实时API AI实时语音时代加速到来
本报记者 吴清 北京报道
OpenAI实时API(应用程序接口)公开测试版发布,推动AI应用的加速落地。
近日,OpenAI发布了其实时API公开测试版,为开发者提供了构建基于GPT-4大型语言模型的高交互性AI应用程序的机会。业内人士认为,该API允许开发者在应用程序中创建低延迟、多模态的实时交互体验,是AI应用领域的一次重大革新。
同时,OpenAI宣布与三家语音API合作伙伴合作,分别为:LiveKit、Agora和Twilio。三家都是实时音视频(RTC)领域的全球龙头企业,其中Twilio、LiveKit都是美国本土企业,之前与OpenAI有较多联系,而Agora在中国市场拥有兄弟公司声网,两家公司在2023年5月拆分,声网专注于中国市场,总部位于上海,Agora则面向美国和国际市场。
《中国经营报》记者注意到,随着各平台公司纷纷发布旗下AI大模型产品,大模型领域的竞争也在加剧。10月2日,OpenAI发布了其实时API公开测试版,10月4日,Meta公布了名为Movie Gen的全新AI模型。国内巨头也纷纷推出并更新了性能直追甚至部分超越GPT-4的产品。
同时,RTC作为AI语音、音视频互动等AI落地强应用场景的关键技术,得到了更多的关注和应用,吸引了巨头们的纷纷布局。除了OpenAI,近日微软AI CEO Mustafa Suleyman也表示,今年年底,微软的AI将拥有实时的语音界面,允许完全动态的交互。
人与AI的实时音视频互动正在变成现实。多为业内人士接受记者采访时表示,实时API的发布标志着OpenAI在AI应用领域向前跨了一大步,通过降低语音交互延时并增强AI对人类语音及情感的理解,为开发者创造了构建更具沉浸性和动态性的AI应用程序的机遇。
实时语音互动:多模态大模型交互的终极形态?
日常生活中人与人的沟通就是以语音为主,视觉其次,视觉的价值主要在于信息的丰富度,但想要提升信息浓度和沟通效率还得靠语音。如今综合文字、图像、视频等的多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。
在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的AI浪潮,在RTC 能力的加持下,人与AI的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。
实际上,引领此轮AI革命浪潮的OpenAI深刻地理解这点,并在此领域深耕已久。
今年3月,OpenAI就宣布了一项革命性的声音克隆技术——“语音引擎”。该技术作为其现有文本转语音API的扩展,仅需15秒的音频样本,便能模仿任何说话者的声音。
记者注意到,GPT-4o算是开创了AI实时语音对话的先河。自GPT-4o发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司Character.AI推出一项通话功能,允许用户与其人工智能角色语音对话,并支持多种语言。此后巨头们纷纷跟进。
一般来说,GPT-4o能支持实时语音对话。一方面得益于自身大模型能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法(语音识别、语音转文字、文字转语音)相比,响应更加及时。另一方面,通过应用RTC技术,实现了语音的实时传输,进一步降低了语音交互的延时,RTC也成为人与AI交互的重要一环。
声网在实践中发现,传统的三步骤处理方法在应用RTC后,响应延时可从4—5秒降低到1—2秒,而在具备端到端实时多模态处理能力后,通过RTC技术,大模型实时语音对话的延时可降到几百毫秒内。
从体验上看,RTC技术的应用让对话式大模型的交互更智能,更具真实感。一方面,低延时的快速响应让人与AI的互动更接近人与人之间的实时对话更自然。另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。
“基于RTC的超低延迟方法可实现更为逼真的对话,并使AI能够理解人类的情感,从而提供更自然的对话体验。”一位云服务厂商的技术负责人对记者表示,可以预见的是,未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化过程,实时语音互动或将成为未来对话式多模态大模型交互的终极形态。
大模型实时语音落地RTC成关键 推动AI应用场景爆发
不过,多模态大模型实时语音对话想要落地,背后依然面临着一系列的技术难点。首先,对于大模型厂商而言,具备端到端实时语音处理的能力是关键,端到端模型的训练成本很高,尤其是处理语音与视频数据,面临大量计算,而计算过程往往会造成延迟,这对实时交互的需求形成了挑战,需要边接收语音边处理和解析,对于很多大模型厂商而言,这意味着需要研发更高效的模型或者优化现有模型的运行效率。
同时,多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验更为关键。除了低延时问题外,大模型实时语音对话中还面临着噪音、终端适配等一系列问题,需要专业的RTC厂商来优化。
记者注意到GPT-4o的发布会的一个细节,工程师演示GPT-4o的手机上插着一根网线,这也反映了一个现实,GPT-4o的演示是在固定设备、固定网络和固定物理环境下进行的,以确保低延时。而在实际应用场景中,用户的设备通常无法一直插着网线,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。
而在RTC的加持下,随着多模态大模型能力的进化,AIGC应用场景迎来新一轮爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的AI交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。同时,在游戏社交、AI分身、实时语音翻译等场景,对话式多模态大模型也大有可为。
量子位智库发布的AI智能助手用户数据报告显示,截至今年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。
业内人士认为,人工智能技术的快速发展,推动实时互动行业持续进化,让实时互动场景变得更丰富、更有趣、更高效,相关市场的应用空间广阔。
以全球移动应用第一大市场美国为例,相关应用市场广阔,应用收入也在持续增长。公开数据显示,2023年泛娱乐应用收入规模达到74亿美元,是第二大市场日本的4.6倍,且同比增长12.6%,市场规模仍在稳定增长。
“美国本土开发者依然把持着泛娱乐头部市场,中国出海App目前仍以短剧为主,尽管在头部App中,中国出海应用较少,但是出海美国的优点在于中长尾App时长占比较高,且用户付费能力较强,中小型App也能在美国取得不错的收入。”国内一家短剧出海App的运营负责人向记者称。
据Ookla的最新数据,美国的移动网络平均网速略低于中国,在测试环境下,美国手机移动网络下载速度113Mbp/s(中国为135.7Mbp/s)。在这样的背景下,要实现真实无障碍的AI互动,RTC就成为一个关键,也给相关业内企业带来了大的发展机遇。
财报显示,今年第二季度,声网和Agora分别在中国和海外市场实现了营收增长。声网和Agora的创始人兼CEO赵斌表示:“我很高兴看到声网和Agora在面对极具挑战的宏观环境下,本季度双双实现收入同比增长。这一成果得益于我们不断推动新应用场景落地,另一方面也提升成熟场景方案的质量和价值。我们最近帮助客户在多个应用场景中推出了对话式AI应用,如AI陪伴、AI助理、AI语言陪练和AI客服,并看到了不错的用户和用量增长。我相信,实时互动与对话式AI的结合将成为我们未来业务发展的关键驱动力。”
在这样的背景下,声网在近期推出了Linux Server SDK,支持当下大模型编程最主流的两类语言Python与Go,能够帮助开发者快速构建AI陪伴、AI助理、AI语言陪练等实时AI应用场景。
不过,声网在2024年第二季度仍处于亏损状态,净亏损仍为920万美元,上年同期的净亏损为4530万美元。声网预计2024年第三季度营收为3150万美元到3350万美元。
可以预见的是,AI、5G、云计算等成为新时代的基础设施,将会给企业变革与发展带来更多新机会。未来,科技巨头将会在大模型和AI产品上不断推陈出新,RTC则将带来人与AI交互的重要变革,也将加速AI应用场景的新一轮爆发。
(编辑:张靖超 审核:李正豪 校对:颜京宁)