OpenAI釋出四項更新 讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能
OpenAI在稍早举办的DevDay活动上公布四项更新,分别包含即时 (Realtime) API、视觉微调 (Vision fine-tuning)、模型蒸馏 (Model distillation),以及指令快取 (Prompt caching),借此强化用户透过OpenAI技术资源打造的人工智慧服务使用体验。
虽然此次并未宣布推出全新人工智慧模型,但此次更新的技术资源则是让开发者能更完善、加强人工智慧互动体验,并且针对运算功能进行最佳化。
即时API
其中,在即时 (Realtime) API部分主要加强人工智慧语意理解与反应互动效率,让使用者能更贴近真实交谈互动方式与人工智慧「对话」,而与OpenAI技术合作的英语学习平台Speak也宣布采用此API资源,用于全新即时角色扮演功能,而包含旅游规划服务Wanderlust也透过此API加快使用者互动体验。
OpenAI说明,传统运作是透过系统理解使用者语意,再将相关内容转换为文字让系统处理运算,最后再以运算结果的文字内容转换成语音播放呈现,而即时API则可直接将音讯透过GPT-4o模型运算,并且直接反应运算结果,借由省去中间转换处理流程,让人工智慧服务能以更快效率呈现结果。
而目前即时API可对应6种语音风格,并且强调与ChatGPT服务提供版本不同,更考量版权、隐私问题,目前并未开放使用第三方语音包客制对话风格。
即时API先以公开测试形式提供使用,计费方式以每100万组输入文字词元 (token)将以5美元计费,而每100万组输出文字词元则以20美元计费,而每100万组输入音讯词元则以100美元计费,而每100万组输出音讯词元则是以200美元计费。
除了对应文字、音讯内容处理,OpenAI接下来也会在即时API扩大支援图像、影片内容,并且让开发者更容易在透过Python、Node.js开发语言打造应用服务整合此API资源。
视觉微调
针对人工智慧视觉应用打造的视觉微调功能,则是让开发者可向GPT-4o提供客制化图像资料,让GPT-4o能以符合特定需求的电脑视觉方式分析内容。
目前东南亚最大线上预约乘车服务Grab,已经利用此功能改善其服务地图定位准确度,例如透过输入100组资料,即可将服务地图车道定位准确度提升20%,同时也能让服务驾驶更正确知晓当前行驶道路实际速限,借此避免在服务过程有超速违规情形。
模型蒸馏
而模型蒸馏功能,则是可让开发者将规模较大的人工智慧模型「精制」成规模较小模型,以利在终端装置上离线使用,或是以更快效率执行运作。
虽然大型人工智慧模型有更精准、多模太使用特性,但由于对应参数量相当庞大,若要用在终端装置可能会面临不少挑战,同时花费成本也相对较高,而反应速度也可能相对缓慢。
因此,透过蒸馏方式让小型模型向大型模型学习,即可在保留小型模型占用运算资源较小、速度较快特性,并且具备与大型模型相同的判断精准度,同时也能以相对较低成本运作。
指令快取
至于指令快取部分,主要是针对人工智慧模型曾经执行过的指令进行暂存,一旦又有相同或类似的指令存取需求,及可以先前处理内容加快反应时间,同时也能让人工智慧模型运作成本降低。
此外,此功能采全自动化设计,意味开发者无须手动设定哪些指令需作暂存,或是调整运作模式,即可加快人工智慧服务执行反应效率,甚至最高能节省多达50%的成本开销。
《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》