Page Agent

其它办公工具
立即访问
应用介绍

Page Agent 是阿里巴巴开源的 LLM 驱动浏览器自动化框架,让 AI 能够像人类一样理解网页结构、识别元素、规划操作步骤并在真实浏览器中执行任务。它适用于自动化办公、网页抓取、流程执行、智能助手等场景,是构建 AI Agent 的高效底层能力框架。


核心特性与功能:

LLM 驱动网页理解

自动解析网页结构、元素语义、布局信息,生成可执行的操作计划。

多步骤任务自动化

支持点击、输入、滚动、跳转、表单填写、登录等复杂网页操作链。

多模型兼容

支持 OpenAI、Qwen、DeepSeek 等主流模型,通过标准 API Key 调用。

高可靠性执行引擎

内置重试、异常处理、状态检查机制,适合生产级自动化任务。

可扩展工具体系

支持自定义工具、外部 API、脚本逻辑,增强 Agent 的执行能力。

简洁易用的开发接口

提供清晰的 API,方便快速构建 AI Agent 或自动化服务。

feedback