应用介绍
Scrapling 是一个 AI 驱动的网页爬取与解析工具,能够自动访问网页、提取内容、清洗噪声、生成结构化数据(如 JSON)、总结网页内容,并支持多家 LLM 模型。它让网页抓取变得更智能,不需要手写复杂的 CSS 选择器或正则表达式。
核心特性与功能:
智能网页解析
使用 LLM 自动理解网页结构,提取正文、标题、列表、表格等内容。
自动结构化输出
可直接生成 JSON、Markdown、摘要等格式,无需手写解析逻辑。
多模型支持
支持 OpenAI、Anthropic、Gemini、DeepSeek、Groq、Ollama 等。
命令行工具
可直接在终端运行,如:
scrapling https://example.com --json
开发者友好
提供 Node.js SDK,可在项目中调用。
自动清洗网页噪声
自动过滤广告、导航栏、脚注等无关内容。
可扩展性强
支持自定义解析规则、模型、输出格式。
MIT 开源许可
可自由商用、修改、二次开发。

