OpenClaw CLI 進階網路爬蟲與數據自動化指令速查表

基礎指令與專案設定


                            openclaw init <專案名稱>

建立一個新的 OpenClaw 專案目錄與基本結構。

建議為每個獨立的抓取任務建立一個新專案。


                            openclaw run <爬蟲名稱>

執行指定名稱的爬蟲（Spider）。

使用 `-o <檔案>` 參數可直接將結果輸出到檔案。


                            openclaw new spider <爬蟲名稱>

在當前專案中建立一個新的爬蟲腳本模板。

新爬蟲會自動包含基礎的解析與請求方法。


                            openclaw config set <鍵> <值>

設定 OpenClaw 的全域或專案特定配置。

常用於設定代理、使用者代理（User-Agent）或超時時間。


                            openclaw login <服務名稱>

針對需要驗證的網站或服務進行登入，通常會保存會話資訊。

部分服務可能需要額外的配置或參數來完成登入。

選擇器與數據提取


                            openclaw extract css '' -u <網址>

使用 CSS 選擇器從指定網址提取數據。

善用瀏覽器開發者工具來快速獲取精確的 CSS 選擇器。


                            openclaw extract xpath '//XPath表達式' -u <網址>

使用 XPath 表達式從指定網址提取數據。

XPath 對於複雜的嵌套結構提取更為強大和靈活。


                            openclaw extract jsonpath '$.JSON路徑' -u

從 JSON 格式的響應中提取數據。

適用於 RESTful API 的數據提取，確保網址返回 JSON。


                            openclaw extract regex '<正規表達式>' -u <網址>

使用正規表達式從頁面內容中提取匹配的文字。

適用於非結構化或難以用選擇器定位的文本模式。


                            openclaw extract text -u <網址>

提取指定網址頁面的所有純文字內容。

當只需要頁面中的所有可讀文字而無需結構化數據時非常有用。

請求與導航


                            openclaw fetch <網址> -m GET

發送一個 GET 請求到指定網址並顯示響應內容。

使用 `-H 'Header: Value'` 添加請求頭。


                            openclaw fetch <網址> -m POST -d '{"key":"value"}'

發送一個帶有 JSON 數據的 POST 請求。

數據可以是表單數據 (`-F 'key=value'`) 或 JSON 數據 (`-d '{"key":"value"}'`)。


                            openclaw browse <網址>

在一個無頭瀏覽器環境中打開指定網址，並可進行互動。

對於 JavaScript 渲染的動態頁面非常有效。


                            openclaw follow <連結選擇器> -u <起始網址>

追蹤指定網頁上符合選擇器的所有連結。

可以結合 `--depth <數字>` 來限制追蹤的深度。


                            openclaw paginate <下一頁選擇器> -u <起始網址>

自動識別並導航到下一頁，實現多頁數據的連續抓取。

確保選擇器能準確定位到「下一頁」或「更多」按鈕/連結。

數據儲存與匯出


                            openclaw export csv <檔案名稱.csv>

將爬取到的數據匯出為逗號分隔值（CSV）格式。

CSV 檔案便於在試算表軟體中打開和處理。


                            openclaw export json <檔案名稱.json>

將爬取到的數據匯出為 JSON 格式。

JSON 格式適合程式化處理和 API 之間的數據交換。


                            openclaw export excel <檔案名稱.xlsx>

將爬取到的數據匯出為 Microsoft Excel 格式。

直接生成 Excel 檔案，省去手動轉換的步驟。


                            openclaw store db <資料庫類型> --table <表格名稱>

將提取的數據儲存到指定的資料庫表格中。

支援多種資料庫類型，如 SQLite, PostgreSQL, MySQL 等。


                            openclaw store cloud <雲端服務> --bucket <儲存桶>

將數據直接儲存到指定的雲端儲存服務。

例如儲存到 AWS S3, Google Cloud Storage 等，需要預先配置憑證。

進階功能與自動化


                            openclaw schedule <爬蟲名稱> --cron "0 0 * * *"

使用 Cron 表達式排程自動執行爬蟲任務。

設定每天午夜執行，實現數據的定期更新。


                            openclaw monitor <爬蟲名稱>

監控指定爬蟲的即時執行狀態和進度。

在長時間運行的爬蟲任務中非常有用，可查看錯誤或進度。


                            openclaw simulate click '<選擇器>' -u <網址>

在無頭瀏覽器中模擬點擊頁面上的指定元素。

用於觸發 JavaScript 事件或導航到新頁面。


                            openclaw simulate input '<選擇器>' '文字內容' -u <網址>

在無頭瀏覽器中模擬向輸入框輸入文字。

常用於填寫表單或搜尋欄位。


                            openclaw proxy use <代理網址>

配置 OpenClaw 使用代理伺服器進行請求。

用於繞過 IP 限制或匿名化爬蟲。


                            openclaw captcha solve --image <圖片路徑>

使用內建或第三方服務自動解決驗證碼。

需要預先配置驗證碼解決服務的 API 密鑰。

偵錯與日誌


                            openclaw log level debug

設定日誌級別為偵錯（Debug），顯示更詳細的運行資訊。

當爬蟲行為異常時，提高日誌級別有助於定位問題。


                            openclaw debug <爬蟲名稱>

以偵錯模式執行特定爬蟲，提供更詳細的執行流程和變數狀態。

可逐步執行爬蟲邏輯，檢查數據提取的每一步。


                            openclaw inspect <網址>

檢查指定網址的頁面結構，並標示出可提取的元素。

在編寫選擇器之前，先用此指令預覽頁面結構。


                            openclaw validate <模式檔案.json> <數據檔案.json>

根據 JSON 模式（Schema）驗證提取數據的結構是否符合預期。

確保數據質量和一致性，特別是在處理大量數據時。


                            openclaw history list

列出所有過去執行的爬蟲任務及其狀態。

用於追蹤和回顧爬蟲的運行歷史。

OpenClaw CLI 進階網路爬蟲速查表

基礎指令與專案設定

選擇器與數據提取

請求與導航

數據儲存與匯出

進階功能與自動化

偵錯與日誌

常見問題 (FAQ)

OpenClaw CLI 與傳統爬蟲框架有何不同？

如何處理動態網頁內容（JavaScript 渲染）？

我可以將 OpenClaw 與其他工具整合嗎？