Gemini 2.5计算机使用模型概述
Google DeepMind推出了Gemini 2.5计算机使用模型,这是基于Gemini 2.5 Pro能力的专业模型,旨在推动能够与用户界面(UI)互动的智能代理的开发。该模型在网页和移动控制基准测试中表现优于其他竞争者,延迟更低。
模型功能
Gemini 2.5计算机使用模型的核心能力通过Gemini API中的新computer_use工具暴露,操作需在循环内进行。输入包括用户请求、环境的截图以及最近的动作历史。输入还可以指定是否排除完整UI动作列表中的某些功能,或指定要包含的额外自定义功能。
// 示例代码:调用computer_use工具
computer_use(user_request, screenshot, action_history);
模型分析这些输入并生成响应,通常是表示UI动作(如点击或输入)的函数调用。响应可能还包含用户确认请求,某些操作(如购买)需要此确认。客户端代码执行接收到的动作后,新的GUI截图和当前URL将作为函数响应返回至计算机使用模型,重新启动循环。这一迭代过程将持续,直到任务完成、发生错误或用户决定终止交互。
性能评估
Gemini 2.5计算机使用模型在多个网页和移动控制基准测试中表现出色,提供领先的浏览器控制质量和最低的延迟。它在Browserbase的Online-Mind2Web性能测试中名列前茅。
安全措施
为了应对AI代理控制计算机带来的独特风险,Gemini 2.5模型内置了安全特性,旨在减少用户滥用、模型行为异常和网络环境中的提示注入等风险。开发者可以通过安全控制来防止模型自动完成潜在高风险或有害的操作。
开发者指南
Gemini 2.5模型现已在Google AI Studio和Vertex AI中公开预览,开发者可以访问Gemini API,开始构建自己的代理循环。详细的文档和参考资料可帮助开发者快速上手。
博主点评: Gemini 2.5计算机使用模型的发布标志着AI与用户界面交互的重大进步。其低延迟和高准确性使其在实际应用中展现出强大的潜力。随着安全措施的加强,开发者在构建智能代理时将更加安心,值得期待其在各类应用场景中的广泛应用。