OpenClaw CLI 中文备忘单 - 网页抓取与数据自动化

基础命令 (Basic Commands)


                            openclaw init

初始化OpenClaw项目目录，创建配置文件和默认脚本。

首次使用时运行，为您的抓取任务建立标准结构。


                            openclaw --help

显示OpenClaw的全局帮助信息，列出所有可用命令和选项。

忘记某个命令的用法时，随时查阅。


                            openclaw version

显示当前安装的OpenClaw CLI工具版本。

在报告问题或检查更新时非常有用。


                            openclaw config show

查看当前项目的配置设置。

确保代理、超时等参数设置正确。

网页抓取 (Web Scraping)


                            openclaw fetch https://example.com --selector "h1.title" --extract text

从指定URL抓取页面，并使用CSS选择器提取匹配元素的文本内容。

使用精确的CSS或XPath选择器来定位目标数据。


                            openclaw scrape products.json --url-list urls.txt --schema product_schema.yml

根据URL列表和预定义的数据模式（schema）批量抓取数据并导出为JSON。

对于复杂或重复的抓取任务，定义一个清晰的schema可以提高效率和数据质量。


                            openclaw follow https://blog.example.com --link-selector "a.next-page" --max-depth 3

从起始URL开始，根据链接选择器自动跟踪并抓取多级页面。

设置合适的max-depth以避免无限循环和不必要的抓取。


                            openclaw screenshot https://example.com --output screenshot.png

抓取指定URL的页面截图并保存。

用于视觉验证页面内容或调试CSS渲染问题。

数据处理与导出 (Data Processing & Export)


                            openclaw process data.json --filter "price > 100" --output filtered_data.json

从JSON文件中读取数据，并根据指定条件进行过滤。

过滤功能支持复杂的逻辑表达式，可以精炼您的数据集。


                            openclaw transform raw_data.json --map "item.title -> title_clean" --output transformed.json

对JSON数据进行转换和重命名，例如将字段名映射到新名称。

适用于统一不同来源的数据格式，或准备数据用于进一步分析。


                            openclaw export scraped_data.json --format csv --output results.csv

将抓取到的数据从JSON格式转换为CSV格式并导出。

OpenClaw支持多种导出格式，包括JSON、CSV、Excel等。


                            openclaw clean scraped_data.json --remove-duplicates "url" --output unique_data.json

清理数据，例如根据指定字段移除重复记录。

在数据量大时，去重是保证数据质量的关键步骤。

AI增强功能 (AI-Powered Features)


                            openclaw smart-extract https://news.example.com --output articles.json

利用AI自动识别并提取网页上的主要内容块，如新闻文章、产品信息。

当目标元素没有明确的CSS选择器时，AI智能提取非常有用。


                            openclaw infer-schema https://product.example.com --output product_schema.yml

分析给定URL的页面结构，自动推断并生成数据提取的schema文件。

节省手动编写复杂schema的时间，是快速启动抓取任务的好方法。


                            openclaw classify scraped_text.txt --model "sentiment" --output sentiments.json

使用AI模型对文本数据进行分类，例如情感分析。

结合抓取的数据进行深度分析，获取更多业务洞察。


                            openclaw summarize article.txt --length short --output summary.txt

利用AI对长文本进行摘要，提取核心信息。

适用于快速浏览大量文本内容，提高信息获取效率。

高级配置 (Advanced Configuration)


                            openclaw fetch https://example.com --proxy http://user:[email protected]:8080

通过指定的代理服务器进行网页抓取。

使用代理可以规避IP封锁，提高抓取匿名性。


                            openclaw scrape urls.txt --headers "User-Agent: CustomAgent, Referer: example.com"

在抓取请求中设置自定义HTTP请求头。

模拟浏览器行为或绕过某些网站的反爬机制。


                            openclaw config set rate_limit 500ms

设置全局或项目级的请求速率限制，避免对目标网站造成过大压力。

负责任的抓取行为，保护目标网站，降低被封禁的风险。


                            openclaw fetch https://example.com --timeout 30

设置请求的超时时间（秒）。

避免因网络延迟或服务器响应缓慢导致抓取任务长时间挂起。

调试与错误处理 (Debugging & Error Handling)


                            openclaw fetch https://example.com --verbose

启用详细输出模式，显示请求和响应的更多细节，方便调试。

当抓取结果不符合预期时，verbose模式能提供宝贵的线索。


                            openclaw test-selector https://example.com "div.content p"

在指定URL上测试CSS或XPath选择器，查看匹配的元素。

在编写复杂选择器之前进行测试，确保其准确性。


                            openclaw log show --level error

显示OpenClaw的日志信息，可以按级别过滤。

检查错误日志是排查抓取失败原因的首要步骤。


                            openclaw retry scrape_job.json --max-retries 5

对之前失败的抓取任务进行重试，并设置最大重试次数。

应对临时网络问题或目标网站的不稳定性。

OpenClaw CLI 中文终极备忘单

基础命令 (Basic Commands)

网页抓取 (Web Scraping)

数据处理与导出 (Data Processing & Export)

AI增强功能 (AI-Powered Features)

高级配置 (Advanced Configuration)

调试与错误处理 (Debugging & Error Handling)

常见问题 (FAQ)

OpenClaw支持哪些操作系统？

如何提高OpenClaw的抓取速度？

OpenClaw如何处理JavaScript渲染的页面？

是否可以在OpenClaw中使用XPath选择器？