OpenAI新模型来了 GPT-4o能讲故事、算数学 特别感谢黄仁勋

OpenAI发表会于13日登场,由该公司技术总监穆拉蒂(Mira Murati)主持,揭晓了三项ChatGPT的更新,其一是一般用户将可以免费造访GPT Store,另外是推出适用于Mac电脑的桌机版App以及新模型「GPT-4o」。

其中尤以GPT-4o最为受到瞩目,GPT-4o为GPT-4的进阶版本,改进了GPT-4的能力,可透过文字、图像、音讯的任意输入组合来进行推理,并将即时生成文字、图像、音讯的组合输出内容,大大地改善了使用者体验,让对话更像与真人交谈。

OpenAI执行长奥特曼(Sam Altman)更发文表示,与电脑交谈从来没有真正自然过,现在却可以了。

穆拉蒂在演示时指出,相比于GPT-4 Turbo,GPT-4o的速度快了两倍、成本降低了50%,而API速率限制、即用户可发出的请求数量则提高了五倍。此外, GPT-4o最快可在232毫秒的时间内回应音讯输入,而其平均反应时间也仅有320毫秒,与人类在对话中的反应时间相似。

在先前的GPT-3.5和GPT-4模型中,OpenAI使用三个独立的模型实现对话,包含一个将音讯转换为文字的模型、一个接收并输出文字的模型,最后则是一个将文字转换回音讯的模型,上述过程会使GPT失去大量讯息,因而无法直接观察音调、多个说话者或背景噪音,亦无法输出笑声、歌唱或表达情感。

该公司在GPT-4o模型对此进行了调整,其所有输入和输出都由同一神经网路处理,因此延迟时间缩短,且能够以自然、听起来像人类的声音进行对话,也能模仿机器人说话,甚至还能高歌一曲。

值得一提的是,新模型能依指令改变语调,拟人讲睡前床边故事,或以歌唱方式说故事。此外,该模型更可「听声翻译」,穆拉蒂与Mark Chen分别以义大利文和英文交谈,最后新模型成功将内容翻译成更自语言,OpenAI团队也展示新模型解决数学方程式、辅助编写程式码的能力。

OpenAI称,GPT-4o为该公司第一个结合所有模式的版本,目前仍只在浅尝并探索该模型的功能及局限性。

穆拉蒂在活动上宣布,GPT-4o模型将开放所有用户免费使用,自今日起支援ChatGPT,一般用户可免费使用,并针对付费用户提供5倍的容量上限。未来几周将会为ChatGPT Plus的用户推出具新版语音模式的GPT-4o alpha版。

OpenAI本次发表会的另外一项更新是宣布增添桌面版ChatGPT App,将优先适用于Mac电脑,至于Windows电脑的版本则会于今年稍晚推出。此外,GPT Store将改为向一般用户开放,不再仅限于付费用户。

对于GPT-4o模型的问世,穆拉蒂除了感谢OpenAI专业团队之外,更点名黄仁勋及辉达团队提供的先进GPU,使GPT-4o模型演示成真。