終極參考指南

OpenClaw CLI 進階網路爬蟲速查表

掌握 OpenClaw 強大功能,實現高效數據提取與自動化。

基礎指令與專案設定

openclaw init <專案名稱>
Copied!

建立一個新的 OpenClaw 專案目錄與基本結構。

建議為每個獨立的抓取任務建立一個新專案。

openclaw run <爬蟲名稱>
Copied!

執行指定名稱的爬蟲(Spider)。

使用 `-o <檔案>` 參數可直接將結果輸出到檔案。

openclaw new spider <爬蟲名稱>
Copied!

在當前專案中建立一個新的爬蟲腳本模板。

新爬蟲會自動包含基礎的解析與請求方法。

openclaw config set <鍵> <值>
Copied!

設定 OpenClaw 的全域或專案特定配置。

常用於設定代理、使用者代理(User-Agent)或超時時間。

openclaw login <服務名稱>
Copied!

針對需要驗證的網站或服務進行登入,通常會保存會話資訊。

部分服務可能需要額外的配置或參數來完成登入。

選擇器與數據提取

openclaw extract css '' -u <網址>
Copied!

使用 CSS 選擇器從指定網址提取數據。

善用瀏覽器開發者工具來快速獲取精確的 CSS 選擇器。

openclaw extract xpath '//XPath表達式' -u <網址>
Copied!

使用 XPath 表達式從指定網址提取數據。

XPath 對於複雜的嵌套結構提取更為強大和靈活。

openclaw extract jsonpath '$.JSON路徑' -u
Copied!

從 JSON 格式的響應中提取數據。

適用於 RESTful API 的數據提取,確保網址返回 JSON。

openclaw extract regex '<正規表達式>' -u <網址>
Copied!

使用正規表達式從頁面內容中提取匹配的文字。

適用於非結構化或難以用選擇器定位的文本模式。

openclaw extract text -u <網址>
Copied!

提取指定網址頁面的所有純文字內容。

當只需要頁面中的所有可讀文字而無需結構化數據時非常有用。

請求與導航

openclaw fetch <網址> -m GET
Copied!

發送一個 GET 請求到指定網址並顯示響應內容。

使用 `-H 'Header: Value'` 添加請求頭。

openclaw fetch <網址> -m POST -d '{"key":"value"}'
Copied!

發送一個帶有 JSON 數據的 POST 請求。

數據可以是表單數據 (`-F 'key=value'`) 或 JSON 數據 (`-d '{"key":"value"}'`)。

openclaw browse <網址>
Copied!

在一個無頭瀏覽器環境中打開指定網址,並可進行互動。

對於 JavaScript 渲染的動態頁面非常有效。

openclaw follow <連結選擇器> -u <起始網址>
Copied!

追蹤指定網頁上符合選擇器的所有連結。

可以結合 `--depth <數字>` 來限制追蹤的深度。

openclaw paginate <下一頁選擇器> -u <起始網址>
Copied!

自動識別並導航到下一頁,實現多頁數據的連續抓取。

確保選擇器能準確定位到「下一頁」或「更多」按鈕/連結。

數據儲存與匯出

openclaw export csv <檔案名稱.csv>
Copied!

將爬取到的數據匯出為逗號分隔值(CSV)格式。

CSV 檔案便於在試算表軟體中打開和處理。

openclaw export json <檔案名稱.json>
Copied!

將爬取到的數據匯出為 JSON 格式。

JSON 格式適合程式化處理和 API 之間的數據交換。

openclaw export excel <檔案名稱.xlsx>
Copied!

將爬取到的數據匯出為 Microsoft Excel 格式。

直接生成 Excel 檔案,省去手動轉換的步驟。

openclaw store db <資料庫類型> --table <表格名稱>
Copied!

將提取的數據儲存到指定的資料庫表格中。

支援多種資料庫類型,如 SQLite, PostgreSQL, MySQL 等。

openclaw store cloud <雲端服務> --bucket <儲存桶>
Copied!

將數據直接儲存到指定的雲端儲存服務。

例如儲存到 AWS S3, Google Cloud Storage 等,需要預先配置憑證。

進階功能與自動化

openclaw schedule <爬蟲名稱> --cron "0 0 * * *"
Copied!

使用 Cron 表達式排程自動執行爬蟲任務。

設定每天午夜執行,實現數據的定期更新。

openclaw monitor <爬蟲名稱>
Copied!

監控指定爬蟲的即時執行狀態和進度。

在長時間運行的爬蟲任務中非常有用,可查看錯誤或進度。

openclaw simulate click '<選擇器>' -u <網址>
Copied!

在無頭瀏覽器中模擬點擊頁面上的指定元素。

用於觸發 JavaScript 事件或導航到新頁面。

openclaw simulate input '<選擇器>' '文字內容' -u <網址>
Copied!

在無頭瀏覽器中模擬向輸入框輸入文字。

常用於填寫表單或搜尋欄位。

openclaw proxy use <代理網址>
Copied!

配置 OpenClaw 使用代理伺服器進行請求。

用於繞過 IP 限制或匿名化爬蟲。

openclaw captcha solve --image <圖片路徑>
Copied!

使用內建或第三方服務自動解決驗證碼。

需要預先配置驗證碼解決服務的 API 密鑰。

偵錯與日誌

openclaw log level debug
Copied!

設定日誌級別為偵錯(Debug),顯示更詳細的運行資訊。

當爬蟲行為異常時,提高日誌級別有助於定位問題。

openclaw debug <爬蟲名稱>
Copied!

以偵錯模式執行特定爬蟲,提供更詳細的執行流程和變數狀態。

可逐步執行爬蟲邏輯,檢查數據提取的每一步。

openclaw inspect <網址>
Copied!

檢查指定網址的頁面結構,並標示出可提取的元素。

在編寫選擇器之前,先用此指令預覽頁面結構。

openclaw validate <模式檔案.json> <數據檔案.json>
Copied!

根據 JSON 模式(Schema)驗證提取數據的結構是否符合預期。

確保數據質量和一致性,特別是在處理大量數據時。

openclaw history list
Copied!

列出所有過去執行的爬蟲任務及其狀態。

用於追蹤和回顧爬蟲的運行歷史。

常見問題 (FAQ)

OpenClaw CLI 與傳統爬蟲框架有何不同?

OpenClaw CLI 旨在提供更直觀、基於指令行的體驗,無需編寫複雜的程式碼即可快速實現常見的爬蟲任務。它專注於快速部署和自動化,讓數據提取變得更簡單高效。

如何處理動態網頁內容(JavaScript 渲染)?

OpenClaw 內建了無頭瀏覽器功能(如 `openclaw browse`, `openclaw simulate`),可以完美處理 JavaScript 渲染的頁面,確保所有內容都能被正確加載和提取,如同真實瀏覽器一樣。

我可以將 OpenClaw 與其他工具整合嗎?

是的,OpenClaw 設計為高度可擴展。您可以將其輸出數據輕鬆整合到資料庫、雲端儲存,或通過其 API 與其他自動化工具(如數據分析平台、報告工具)協同工作,實現端到端的數據流程。