☰

OpenAI釋出四項更新讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

OpenAI在稍早举办的DevDay活动上公布四项更新，分别包含即时 (Realtime) API、视觉微调 (Vision fine-tuning)、模型蒸馏 (Model distillation)，以及指令快取 (Prompt caching)，借此强化用户透过OpenAI技术资源打造的人工智慧服务使用体验。

虽然此次并未宣布推出全新人工智慧模型，但此次更新的技术资源则是让开发者能更完善、加强人工智慧互动体验，并且针对运算功能进行最佳化。

即时API

其中，在即时 (Realtime) API部分主要加强人工智慧语意理解与反应互动效率，让使用者能更贴近真实交谈互动方式与人工智慧「对话」，而与OpenAI技术合作的英语学习平台Speak也宣布采用此API资源，用于全新即时角色扮演功能，而包含旅游规划服务Wanderlust也透过此API加快使用者互动体验。

OpenAI说明，传统运作是透过系统理解使用者语意，再将相关内容转换为文字让系统处理运算，最后再以运算结果的文字内容转换成语音播放呈现，而即时API则可直接将音讯透过GPT-4o模型运算，并且直接反应运算结果，借由省去中间转换处理流程，让人工智慧服务能以更快效率呈现结果。

而目前即时API可对应6种语音风格，并且强调与ChatGPT服务提供版本不同，更考量版权、隐私问题，目前并未开放使用第三方语音包客制对话风格。

即时API先以公开测试形式提供使用，计费方式以每100万组输入文字词元 (token)将以5美元计费，而每100万组输出文字词元则以20美元计费，而每100万组输入音讯词元则以100美元计费，而每100万组输出音讯词元则是以200美元计费。

除了对应文字、音讯内容处理，OpenAI接下来也会在即时API扩大支援图像、影片内容，并且让开发者更容易在透过Python、Node.js开发语言打造应用服务整合此API资源。

视觉微调

针对人工智慧视觉应用打造的视觉微调功能，则是让开发者可向GPT-4o提供客制化图像资料，让GPT-4o能以符合特定需求的电脑视觉方式分析内容。

目前东南亚最大线上预约乘车服务Grab，已经利用此功能改善其服务地图定位准确度，例如透过输入100组资料，即可将服务地图车道定位准确度提升20%，同时也能让服务驾驶更正确知晓当前行驶道路实际速限，借此避免在服务过程有超速违规情形。

模型蒸馏

而模型蒸馏功能，则是可让开发者将规模较大的人工智慧模型「精制」成规模较小模型，以利在终端装置上离线使用，或是以更快效率执行运作。

虽然大型人工智慧模型有更精准、多模太使用特性，但由于对应参数量相当庞大，若要用在终端装置可能会面临不少挑战，同时花费成本也相对较高，而反应速度也可能相对缓慢。

因此，透过蒸馏方式让小型模型向大型模型学习，即可在保留小型模型占用运算资源较小、速度较快特性，并且具备与大型模型相同的判断精准度，同时也能以相对较低成本运作。

指令快取

至于指令快取部分，主要是针对人工智慧模型曾经执行过的指令进行暂存，一旦又有相同或类似的指令存取需求，及可以先前处理内容加快反应时间，同时也能让人工智慧模型运作成本降低。

此外，此功能采全自动化设计，意味开发者无须手动设定哪些指令需作暂存，或是调整运作模式，即可加快人工智慧服务执行反应效率，甚至最高能节省多达50%的成本开销。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

OpenAI釋出四項更新 讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

相关资讯

OpenAI釋出四項更新讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能