基礎操作與專案管理
openclaw init <專案名稱>
初始化一個新的 OpenClaw 專案目錄,並設定基本配置檔案,為數據擷取任務做好準備。
建議為每個獨立的擷取任務創建一個新專案,以保持組織性。
openclaw fetch [--headless]
擷取指定網址的原始 HTML 內容。使用 --headless 旗標可啟用無頭瀏覽器,以處理 JavaScript 渲染的頁面。
對於動態內容網頁,務必使用 --headless 以確保所有內容都已載入。
openclaw login --user <用戶變數> --pass <密碼變數>
模擬用戶登入指定網站。安全地使用環境變數來傳遞敏感的用戶名和密碼。
將用戶名和密碼儲存在環境變數中,例如 `OPENCLAW_USER` 和 `OPENCLAW_PASS`,以提高安全性。
openclaw config view
顯示當前專案或全域的 OpenClaw 配置設定,包括代理、逾時和並發限制等。
定期檢查配置,確保它符合您的網絡環境和目標網站的要求。
openclaw help <命令>
獲取特定 OpenClaw 命令的詳細用法和參數說明,是學習新功能的快捷方式。
當您不確定某個命令的參數時,`openclaw help` 是您的最佳夥伴。
資料擷取與選擇器
openclaw extract --url --selector "CSS選擇器"
使用 CSS 選擇器從指定網址中提取數據。這是最常用且直觀的擷取方法之一。
使用瀏覽器開發者工具來精確定位元素並獲取其 CSS 選擇器。
openclaw extract --url --xpath "XPath表達式"
使用 XPath 表達式進行更複雜和靈活的數據提取,特別適用於處理缺乏唯一 CSS 選擇器的元素。
XPath 能夠遍歷整個 DOM 樹,適用於從父節點或兄弟節點定位元素。
openclaw extract --url --regex "/正則表達式/g"
使用正則表達式從網頁的原始文本內容中提取符合模式的數據,適用於非結構化文本。
正則表達式對於提取嵌入在腳本標籤或特定文本塊中的數據非常有效。
openclaw extract --url --schema
根據預定義的 JSON Schema 結構化地提取數據,確保輸出格式的一致性和規範性。
提前定義好 schema 可以大幅簡化後續的數據處理工作。
openclaw follow-links --url <起始URL> --pattern ".*商品頁.*"
自動追蹤符合特定模式的連結,並對每個追蹤到的頁面執行數據擷取操作。
結合 `--depth` 參數來控制連結追蹤的深度,避免無限循環。
進階篩選與處理
openclaw filter --data <輸入檔案> --query "價格 > 100"
對已擷取的數據進行過濾,只保留符合特定條件的記錄,支援多種條件邏輯。
您可以鏈接多個 `--query` 參數來應用更複雜的過濾邏輯。
openclaw transform --data <輸入檔案> --script <轉換腳本.js>
使用自定義的 JavaScript 腳本對數據進行轉換和清洗,例如格式化日期、計算值等。
轉換腳本可以訪問每個數據記錄,並返回修改後的記錄。
openclaw paginate --url <基礎URL> --next-selector "a.下一頁"
自動處理分頁式網頁,透過識別「下一頁」連結或按鈕,逐頁擷取數據。
確保您的 `--next-selector` 選擇器足夠精確,以避免錯誤的分頁導航。
openclaw wait --selector "div#內容區塊" --timeout 10
在執行下一步操作前,等待特定的 CSS 選擇器元素出現在頁面上,處理非同步載入的內容。
使用 `openclaw wait` 可以有效解決因 AJAX 或延遲載入導致的數據遺漏問題。
AI 智能分析功能
openclaw analyze --url --task "總結"
利用 AI 分析指定網頁內容,例如自動生成頁面摘要、關鍵字提取或情感分析。
不同的 `--task` 選項可以執行多種 AI 智能分析,探索更多可能性。
openclaw classify --data <輸入檔案> --model "情感分析"
將擷取到的文本數據傳遞給 AI 模型進行分類,例如判斷評論的情感傾向(正面/負面)。
您可以訓練自己的 AI 模型並將其整合到 OpenClaw 中以實現特定分類任務。
openclaw identify --url --entity "產品名稱,價格"
AI 自動識別網頁上的特定實體,即使沒有明確的選擇器,也能智能地識別出產品名稱、價格等信息。
此功能特別適用於結構不規則或佈局多變的網站。
openclaw generate-schema --url
AI 根據網頁內容自動生成推薦的擷取 JSON Schema,極大簡化了手動創建 Schema 的工作。
這是開始新擷取任務的絕佳起點,可以為您節省大量時間。
輸出與整合
openclaw output --data <輸入檔案> --format json --file 輸出.json
將處理後的數據以指定格式(如 JSON、CSV、XML)輸出到本地檔案。
選擇適合您後續數據處理工具的輸出格式。
openclaw output --data <輸入檔案> --format csv --file 輸出.csv --delimiter ";"
輸出為逗號分隔值 (CSV) 檔案,可自定義分隔符,便於在試算表軟件中打開。
對於包含特殊字符的數據,請確保選擇正確的編碼和分隔符。
openclaw export --data <輸入檔案> --to database --config db_config.json
將擷取到的數據直接匯入到指定的資料庫中,支援多種資料庫類型,如 MySQL、PostgreSQL。
在 `db_config.json` 中配置資料庫連線參數和表映射關係。
openclaw webhook --data <輸入檔案> --url
將處理好的數據以 HTTP POST 請求的形式發送到指定的 Webhook 端點,實現實時數據傳輸。
Webhook 是將數據即時整合到其他應用程式或服務的有效方式。
自動化與排程
openclaw schedule --task <任務名稱> --cron "0 0 * * *" --script <執行腳本.sh>
設定一個定時任務,在指定的時間間隔自動執行數據擷取或處理腳本。
Cron 表達式允許您精確控制任務的執行頻率(例如,每天、每週、每月)。
openclaw monitor --url --selector "span.價格" --threshold "變更 > 10%"
持續監控網頁上的特定元素,並在檢測到數據達到預設閾值時觸發警報或動作。
這對於監控價格變動、庫存更新或新聞發布非常有用。
openclaw run --script <腳本檔案.sh>
執行一個包含一系列 OpenClaw 命令的腳本檔案,實現複雜的自動化工作流。
將多個命令組合到一個腳本中,可以創建可重複和可維護的任務。
openclaw deploy --config <配置檔案.json> --env "生產環境"
將您的 OpenClaw 任務和配置部署到雲端或伺服器環境,實現無人值守的數據自動化。
使用不同的環境配置可以輕鬆管理開發、測試和生產部署。