基础命令 (Basic Commands)
openclaw init
初始化OpenClaw项目目录,创建配置文件和默认脚本。
首次使用时运行,为您的抓取任务建立标准结构。
openclaw --help
显示OpenClaw的全局帮助信息,列出所有可用命令和选项。
忘记某个命令的用法时,随时查阅。
openclaw version
显示当前安装的OpenClaw CLI工具版本。
在报告问题或检查更新时非常有用。
openclaw config show
查看当前项目的配置设置。
确保代理、超时等参数设置正确。
网页抓取 (Web Scraping)
openclaw fetch https://example.com --selector "h1.title" --extract text
从指定URL抓取页面,并使用CSS选择器提取匹配元素的文本内容。
使用精确的CSS或XPath选择器来定位目标数据。
openclaw scrape products.json --url-list urls.txt --schema product_schema.yml
根据URL列表和预定义的数据模式(schema)批量抓取数据并导出为JSON。
对于复杂或重复的抓取任务,定义一个清晰的schema可以提高效率和数据质量。
openclaw follow https://blog.example.com --link-selector "a.next-page" --max-depth 3
从起始URL开始,根据链接选择器自动跟踪并抓取多级页面。
设置合适的max-depth以避免无限循环和不必要的抓取。
openclaw screenshot https://example.com --output screenshot.png
抓取指定URL的页面截图并保存。
用于视觉验证页面内容或调试CSS渲染问题。
数据处理与导出 (Data Processing & Export)
openclaw process data.json --filter "price > 100" --output filtered_data.json
从JSON文件中读取数据,并根据指定条件进行过滤。
过滤功能支持复杂的逻辑表达式,可以精炼您的数据集。
openclaw transform raw_data.json --map "item.title -> title_clean" --output transformed.json
对JSON数据进行转换和重命名,例如将字段名映射到新名称。
适用于统一不同来源的数据格式,或准备数据用于进一步分析。
openclaw export scraped_data.json --format csv --output results.csv
将抓取到的数据从JSON格式转换为CSV格式并导出。
OpenClaw支持多种导出格式,包括JSON、CSV、Excel等。
openclaw clean scraped_data.json --remove-duplicates "url" --output unique_data.json
清理数据,例如根据指定字段移除重复记录。
在数据量大时,去重是保证数据质量的关键步骤。
AI增强功能 (AI-Powered Features)
openclaw smart-extract https://news.example.com --output articles.json
利用AI自动识别并提取网页上的主要内容块,如新闻文章、产品信息。
当目标元素没有明确的CSS选择器时,AI智能提取非常有用。
openclaw infer-schema https://product.example.com --output product_schema.yml
分析给定URL的页面结构,自动推断并生成数据提取的schema文件。
节省手动编写复杂schema的时间,是快速启动抓取任务的好方法。
openclaw classify scraped_text.txt --model "sentiment" --output sentiments.json
使用AI模型对文本数据进行分类,例如情感分析。
结合抓取的数据进行深度分析,获取更多业务洞察。
openclaw summarize article.txt --length short --output summary.txt
利用AI对长文本进行摘要,提取核心信息。
适用于快速浏览大量文本内容,提高信息获取效率。
高级配置 (Advanced Configuration)
openclaw fetch https://example.com --proxy http://user:[email protected]:8080
通过指定的代理服务器进行网页抓取。
使用代理可以规避IP封锁,提高抓取匿名性。
openclaw scrape urls.txt --headers "User-Agent: CustomAgent, Referer: example.com"
在抓取请求中设置自定义HTTP请求头。
模拟浏览器行为或绕过某些网站的反爬机制。
openclaw config set rate_limit 500ms
设置全局或项目级的请求速率限制,避免对目标网站造成过大压力。
负责任的抓取行为,保护目标网站,降低被封禁的风险。
openclaw fetch https://example.com --timeout 30
设置请求的超时时间(秒)。
避免因网络延迟或服务器响应缓慢导致抓取任务长时间挂起。
调试与错误处理 (Debugging & Error Handling)
openclaw fetch https://example.com --verbose
启用详细输出模式,显示请求和响应的更多细节,方便调试。
当抓取结果不符合预期时,verbose模式能提供宝贵的线索。
openclaw test-selector https://example.com "div.content p"
在指定URL上测试CSS或XPath选择器,查看匹配的元素。
在编写复杂选择器之前进行测试,确保其准确性。
openclaw log show --level error
显示OpenClaw的日志信息,可以按级别过滤。
检查错误日志是排查抓取失败原因的首要步骤。
openclaw retry scrape_job.json --max-retries 5
对之前失败的抓取任务进行重试,并设置最大重试次数。
应对临时网络问题或目标网站的不稳定性。