OpenAI 开发者日,AI 应用新成果惊艳亮相

OpenAI 这一周可谓动荡不安,充斥着高管离职和重大融资进展的情况,但这家初创公司又重新行动起来,试图在其 2024 年开发者日说服开发者使用其人工智能模型构建工具。该公司周二宣布了几款新工具,包括其“实时 API”的公开测试版,用于构建具有低延迟、人工智能生成语音响应的应用程序。这还不完全是 ChatGPT 的高级语音模式,但已经很接近了。

在活动前给记者的简报中,OpenAI 首席产品官凯文·韦尔(Kevin Weil)表示,首席技术官米拉·穆拉蒂(Mira Murati)和首席研究官鲍勃·麦格鲁(Bob McGrew)近期的离职不会对公司的发展造成影响。

“首先我要说,鲍勃和米拉一直是出色的领导者。我从他们身上学到了很多,他们是我们走到今天的重要组成部分,”韦尔说。“而且,我们不会放慢脚步。”

随着 OpenAI 再次对高层管理团队进行调整——这让人回想起去年开发日之后的动荡局面——该公司正试图让开发者相信,它仍然提供了构建人工智能应用的最佳平台。领导们称,这家初创公司有超过 300 万的开发者利用其人工智能模型进行开发,但 OpenAI 正处于竞争日益激烈的环境中。

OpenAI 指出,在过去的两年里,它已把开发者访问其 API 的成本降低了 99%,不过这很可能是被 Meta 和谷歌等竞争对手不断压低价格所迫。

OpenAI 的一项新功能,名为实时 API,将为开发者提供在其应用程序中构建近乎实时的语音到语音体验的机会,可以选择使用 OpenAI 所提供的六种声音。这些声音与为 ChatGPT 提供的声音不同,并且为了防止版权问题,开发者不能使用第三方声音。(基于斯嘉丽·约翰逊的那种声音模糊不清,在任何地方都无法使用。)

在进行简报时,OpenAI 的开发者体验主管罗曼·休特分享了一个运用实时 API 构建的旅行规划应用程序的演示实例。该应用程序允许用户与人工智能助手口头谈论即将前往伦敦的旅行,并获得低延迟响应。实时 API 还可以访问许多工具,因此该应用程序能够在回答的同时在地图上标注餐厅位置。

在另一处,Huet 展示了实时 API 如何通过电话与人类交流,询问为某一活动订购食物的事。与谷歌饱受诟病的 Duo 不同,OpenAI 的 API 不能直接致电餐厅或商店;然而,它可以与像 Twilio 这样的通话 API 集成来达成这个目的。值得注意的是,OpenAI 没有添加披露内容,以便其 AI 模型在这样的通话中自动表明自身身份,尽管这些 AI 生成的声音听起来非常逼真。目前,似乎添加此披露内容是开发者的责任,这可能是新的加利福尼亚法律所要求的。

作为其开发日的公告的一部分,OpenAI 还在其 API 中引入了视觉微调的功能,这将允许开发者使用图像以及文本对 GPT-4o 的应用做微调。理论上,这应该有助于开发者提高 GPT-4o 在涉及视觉理解任务方面的性能。OpenAI 的产品 API 负责人 Olivier Godement 告诉 TechCrunch,开发者将无法上传受版权保护的图像(例如唐老鸭的图片)、描绘暴力的图像或其他违反 OpenAI 安全政策的图像。

OpenAI 正在努力追赶其在 AI 模型授权领域的竞争对手已提供的内容。它的提示缓存功能与 Anthropic 几个月前推出的功能相似,允许开发人员在 API 调用之间缓存常用的上下文,降低成本并减少延迟。OpenAI 称,开发人员使用此功能能节省 50%,而 Anthropic 承诺给予 90%的折扣。

最后,OpenAI 推出了一个模型提炼功能,使得开发人员能够使用较大的 AI 模型,比如 o1-preview 和 GPT-4o,去微调较小的模型,像 GPT-4o mini。运行较小的模型通常比运行较大的模型更节省成本,不过此功能应当能让开发人员提升这些小型 AI 模型的性能。作为模型提炼的一部分,OpenAI 正在推出一个测试版评估工具,以便开发人员能够在 OpenAI 的 API 内衡量其微调的性能。