基礎指令與專案設定
openclaw init <專案名稱>
建立一個新的 OpenClaw 專案目錄與基本結構。
建議為每個獨立的抓取任務建立一個新專案。
openclaw run <爬蟲名稱>
執行指定名稱的爬蟲(Spider)。
使用 `-o <檔案>` 參數可直接將結果輸出到檔案。
openclaw new spider <爬蟲名稱>
在當前專案中建立一個新的爬蟲腳本模板。
新爬蟲會自動包含基礎的解析與請求方法。
openclaw config set <鍵> <值>
設定 OpenClaw 的全域或專案特定配置。
常用於設定代理、使用者代理(User-Agent)或超時時間。
openclaw login <服務名稱>
針對需要驗證的網站或服務進行登入,通常會保存會話資訊。
部分服務可能需要額外的配置或參數來完成登入。
選擇器與數據提取
openclaw extract css '' -u <網址>
使用 CSS 選擇器從指定網址提取數據。
善用瀏覽器開發者工具來快速獲取精確的 CSS 選擇器。
openclaw extract xpath '//XPath表達式' -u <網址>
使用 XPath 表達式從指定網址提取數據。
XPath 對於複雜的嵌套結構提取更為強大和靈活。
openclaw extract jsonpath '$.JSON路徑' -u
從 JSON 格式的響應中提取數據。
適用於 RESTful API 的數據提取,確保網址返回 JSON。
openclaw extract regex '<正規表達式>' -u <網址>
使用正規表達式從頁面內容中提取匹配的文字。
適用於非結構化或難以用選擇器定位的文本模式。
openclaw extract text -u <網址>
提取指定網址頁面的所有純文字內容。
當只需要頁面中的所有可讀文字而無需結構化數據時非常有用。
請求與導航
openclaw fetch <網址> -m GET
發送一個 GET 請求到指定網址並顯示響應內容。
使用 `-H 'Header: Value'` 添加請求頭。
openclaw fetch <網址> -m POST -d '{"key":"value"}'
發送一個帶有 JSON 數據的 POST 請求。
數據可以是表單數據 (`-F 'key=value'`) 或 JSON 數據 (`-d '{"key":"value"}'`)。
openclaw browse <網址>
在一個無頭瀏覽器環境中打開指定網址,並可進行互動。
對於 JavaScript 渲染的動態頁面非常有效。
openclaw follow <連結選擇器> -u <起始網址>
追蹤指定網頁上符合選擇器的所有連結。
可以結合 `--depth <數字>` 來限制追蹤的深度。
openclaw paginate <下一頁選擇器> -u <起始網址>
自動識別並導航到下一頁,實現多頁數據的連續抓取。
確保選擇器能準確定位到「下一頁」或「更多」按鈕/連結。
數據儲存與匯出
openclaw export csv <檔案名稱.csv>
將爬取到的數據匯出為逗號分隔值(CSV)格式。
CSV 檔案便於在試算表軟體中打開和處理。
openclaw export json <檔案名稱.json>
將爬取到的數據匯出為 JSON 格式。
JSON 格式適合程式化處理和 API 之間的數據交換。
openclaw export excel <檔案名稱.xlsx>
將爬取到的數據匯出為 Microsoft Excel 格式。
直接生成 Excel 檔案,省去手動轉換的步驟。
openclaw store db <資料庫類型> --table <表格名稱>
將提取的數據儲存到指定的資料庫表格中。
支援多種資料庫類型,如 SQLite, PostgreSQL, MySQL 等。
openclaw store cloud <雲端服務> --bucket <儲存桶>
將數據直接儲存到指定的雲端儲存服務。
例如儲存到 AWS S3, Google Cloud Storage 等,需要預先配置憑證。
進階功能與自動化
openclaw schedule <爬蟲名稱> --cron "0 0 * * *"
使用 Cron 表達式排程自動執行爬蟲任務。
設定每天午夜執行,實現數據的定期更新。
openclaw monitor <爬蟲名稱>
監控指定爬蟲的即時執行狀態和進度。
在長時間運行的爬蟲任務中非常有用,可查看錯誤或進度。
openclaw simulate click '<選擇器>' -u <網址>
在無頭瀏覽器中模擬點擊頁面上的指定元素。
用於觸發 JavaScript 事件或導航到新頁面。
openclaw simulate input '<選擇器>' '文字內容' -u <網址>
在無頭瀏覽器中模擬向輸入框輸入文字。
常用於填寫表單或搜尋欄位。
openclaw proxy use <代理網址>
配置 OpenClaw 使用代理伺服器進行請求。
用於繞過 IP 限制或匿名化爬蟲。
openclaw captcha solve --image <圖片路徑>
使用內建或第三方服務自動解決驗證碼。
需要預先配置驗證碼解決服務的 API 密鑰。
偵錯與日誌
openclaw log level debug
設定日誌級別為偵錯(Debug),顯示更詳細的運行資訊。
當爬蟲行為異常時,提高日誌級別有助於定位問題。
openclaw debug <爬蟲名稱>
以偵錯模式執行特定爬蟲,提供更詳細的執行流程和變數狀態。
可逐步執行爬蟲邏輯,檢查數據提取的每一步。
openclaw inspect <網址>
檢查指定網址的頁面結構,並標示出可提取的元素。
在編寫選擇器之前,先用此指令預覽頁面結構。
openclaw validate <模式檔案.json> <數據檔案.json>
根據 JSON 模式(Schema)驗證提取數據的結構是否符合預期。
確保數據質量和一致性,特別是在處理大量數據時。
openclaw history list
列出所有過去執行的爬蟲任務及其狀態。
用於追蹤和回顧爬蟲的運行歷史。