Google推Gemini 2.5 Flash!AI模型更低延遲運作、可依預算調整使用效益

不久前宣布推出标榜在程式编写、数学推理,以及科学分析有相当能力表现的Gemini 2.5 Pro实验版 (Experimental)之后,Google在此次Google NEXT'25大会活动进一步宣布推出更低延迟运作、成本效益更高的Gemini 2.5 Flash,同样透过Google Cloud服务的Vertex AI平台,以及Google AI Studio管道提供。

相比Gemini 2.5 Pro能处理前后达100万个词元内容理解处理,并且能进行深度资料分析、在特定专业领域提供关键见解,或是在理解整个程式码后进行复杂编码工作,成为Google当前能力最高的人工智慧模型,Gemini 2.5 Flash则是提供更低延迟执行效率,以及更低使用成本,预期成为多数应用服务主力使用模型,同时也能保持一定执行处理正确率表现,适合用于制作互动虚拟助理,或是即时内容摘要工具。

而Gemini 2.5 Flash同时具备动态、可控的推理能力,可依照提问内容复杂度自动调整处理时间 (可视为「思考预算」考量),针对可简单回复提问内容更快做出互动,同时开发者或企业也能设定使用成本,依照实际需求调整回应速度、准确率,借此让服务运作预算可更有效益地使用。

同时,为了让使用者能更容易在Gemini 2.5 Pro及Gemini 2.5 Flash等模型之间选择合适需求版本,Google推出实验性质的Vertex AI模型最佳化工具,可依照使用者期望执行品质与成本自动为每个提示 (prompt)产生最佳品质响应结果。

针对工作负载无须在固定网路节点位置处理的需求,Google也推出名为Vertex AI Global Endpoint的跨区域流量感知路由,即使在高峰值存取流量,或是所处区域网路服务不稳定情况下,仍可确保Gemini人工智慧模型维持一定回应效率。

另外,Google也宣布在Vertex AI平台增加对应Gemini人工智慧模型使用的API资源,让借由Gemini人工智慧模型打造的代理服务能以更低延迟形式处理声音、视讯及文字内容,借此实现呈现更贴近人类即时对话、即时监控等互动效果,并且支援长度超过30分钟的对话内容、多语言音讯分析,或是整合更多功能,借此处理更复杂工作任务。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》