☰

Google推Gemini 2.5 Flash！AI模型更低延遲運作、可依預算調整使用效益

不久前宣布推出标榜在程式编写、数学推理，以及科学分析有相当能力表现的Gemini 2.5 Pro实验版 (Experimental)之后，Google在此次Google NEXT'25大会活动进一步宣布推出更低延迟运作、成本效益更高的Gemini 2.5 Flash，同样透过Google Cloud服务的Vertex AI平台，以及Google AI Studio管道提供。

相比Gemini 2.5 Pro能处理前后达100万个词元内容理解处理，并且能进行深度资料分析、在特定专业领域提供关键见解，或是在理解整个程式码后进行复杂编码工作，成为Google当前能力最高的人工智慧模型，Gemini 2.5 Flash则是提供更低延迟执行效率，以及更低使用成本，预期成为多数应用服务主力使用模型，同时也能保持一定执行处理正确率表现，适合用于制作互动虚拟助理，或是即时内容摘要工具。

而Gemini 2.5 Flash同时具备动态、可控的推理能力，可依照提问内容复杂度自动调整处理时间 (可视为「思考预算」考量)，针对可简单回复提问内容更快做出互动，同时开发者或企业也能设定使用成本，依照实际需求调整回应速度、准确率，借此让服务运作预算可更有效益地使用。

同时，为了让使用者能更容易在Gemini 2.5 Pro及Gemini 2.5 Flash等模型之间选择合适需求版本，Google推出实验性质的Vertex AI模型最佳化工具，可依照使用者期望执行品质与成本自动为每个提示 (prompt)产生最佳品质响应结果。

针对工作负载无须在固定网路节点位置处理的需求，Google也推出名为Vertex AI Global Endpoint的跨区域流量感知路由，即使在高峰值存取流量，或是所处区域网路服务不稳定情况下，仍可确保Gemini人工智慧模型维持一定回应效率。

另外，Google也宣布在Vertex AI平台增加对应Gemini人工智慧模型使用的API资源，让借由Gemini人工智慧模型打造的代理服务能以更低延迟形式处理声音、视讯及文字内容，借此实现呈现更贴近人类即时对话、即时监控等互动效果，并且支援长度超过30分钟的对话内容、多语言音讯分析，或是整合更多功能，借此处理更复杂工作任务。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

Google推Gemini 2.5 Flash！AI模型更低延遲運作、可依預算調整使用效益

相关资讯