应用介绍
Page Agent 是阿里巴巴开源的 LLM 驱动浏览器自动化框架,让 AI 能够像人类一样理解网页结构、识别元素、规划操作步骤并在真实浏览器中执行任务。它适用于自动化办公、网页抓取、流程执行、智能助手等场景,是构建 AI Agent 的高效底层能力框架。
核心特性与功能:
LLM 驱动网页理解
自动解析网页结构、元素语义、布局信息,生成可执行的操作计划。
多步骤任务自动化
支持点击、输入、滚动、跳转、表单填写、登录等复杂网页操作链。
多模型兼容
支持 OpenAI、Qwen、DeepSeek 等主流模型,通过标准 API Key 调用。
高可靠性执行引擎
内置重试、异常处理、状态检查机制,适合生产级自动化任务。
可扩展工具体系
支持自定义工具、外部 API、脚本逻辑,增强 Agent 的执行能力。
简洁易用的开发接口
提供清晰的 API,方便快速构建 AI Agent 或自动化服务。

