基本的なスクレイピング
openclaw scrape
指定されたURLからウェブページ全体をスクレイピングし、構造化されたデータを抽出します。
ほとんどのウェブサイトで機能しますが、JavaScriptレンダリングが必要な場合は`--render-js`を使用してください。
openclaw extract --selector ""
特定のCSSセレクタに一致する要素からデータを抽出します。
複数のセレクタを指定するには、`--selector "div.item, span.price"`のようにカンマで区切ります。
openclaw export --format json
スクレイピングしたデータを指定されたフォーマット(例: JSON, CSV)でエクスポートします。
`--output
openclaw fetch --headers "User-Agent: custom"
カスタムHTTPヘッダーを指定してウェブページを取得します。
特定のウェブサイトがボットからのアクセスをブロックしている場合に役立ちます。
高度なデータ抽出
openclaw extract --ai-query "記事のタイトルと公開日を抽出"
AIモデルを使用して、自然言語クエリに基づいて特定の情報を抽出します。
クエリを具体的にすることで、より正確な結果が得られます。
openclaw follow-links --depth 2 --pattern "/blog/"
指定されたURLからリンクをたどり、指定された深さまでページをスクレイピングします。特定のパターンに一致するリンクのみを追跡します。
`--exclude-pattern`を使って特定のリンクを除外することもできます。
openclaw table --selector "table"
指定されたセレクタに一致するHTMLテーブルからデータを抽出します。
複数のテーブルがある場合は、より具体的なセレクタを使用してください。
openclaw screenshot --output page.png
ウェブページのスクリーンショットを撮影し、画像ファイルとして保存します。
`--full-page`オプションでページ全体をキャプチャできます。
認証とセッション管理
openclaw login --username --password
指定された認証情報を使用してウェブサイトにログインします。
環境変数を使用して認証情報を安全に管理できます。
openclaw session start --name "mysession"
新しいセッションを開始し、クッキーや認証情報を保持します。
複数の異なるウェブサイトに対して独立したセッションを管理できます。
openclaw session use "mysession" scrape
既存のセッションを使用してウェブページをスクレイピングします。
ログインが必要なページへのアクセスに便利です。
openclaw session clear --name "mysession"
指定されたセッションのすべてのクッキーと認証情報をクリアします。
セッションをリセットしたい場合や、ログアウトしたい場合に利用します。
データ処理とフィルタリング
openclaw filter --input data.json --query "price > 100"
入力データ(JSONなど)をフィルタリングし、指定された条件に一致するレコードのみを返します。
高度なクエリ言語(例: JMESPath)をサポートしています。
openclaw transform --input data.json --jq-expr ".items[] | {title: .name, value: .price}"
`jq`のような式を使用して、抽出されたデータを変換・整形します。
複雑なデータ構造を必要な形式に変換するのに非常に強力です。
openclaw deduplicate --input data.csv --key "URL"
指定されたキーに基づいて入力データから重複レコードを削除します。
スクレイピング中に誤って重複したデータを収集してしまった場合に便利です。
openclaw paginate --start 1 --end 10
ページネーションを処理し、指定された範囲のページを順次スクレイピングします。
`--next-selector`で次のページへのリンクを特定することもできます。
エラー処理とデバッグ
openclaw dry-run --selector "h1"
コマンドを実行せずに、何がスクレイピングされるか、またはAIが何を抽出するかをプレビューします。
本番環境で実行する前に設定をテストするのに最適です。
openclaw debug --verbose
詳細なログとデバッグ情報を出力して、スクレイピングプロセスの問題を診断します。
コマンドが期待どおりに動作しない場合に、問題の原因を特定するのに役立ちます。
openclaw retry --attempts 3 --delay 5
ネットワークエラーや一時的な問題が発生した場合に、コマンドを指定された回数だけ再試行します。
不安定なネットワーク環境やターゲットサイトの負荷が高い場合に有用です。
openclaw validate --schema schema.json --input data.json
抽出されたデータが指定されたJSONスキーマに準拠しているかを検証します。
データ品質を保証し、後続の処理で問題が発生するのを防ぎます。
自動化とワークフロー
openclaw schedule "0 0 * * *" "scrape --output daily_report.json"
指定されたcron式に基づいてコマンドの実行をスケジュールします。
定期的なデータ収集やレポート生成に利用できます。
openclaw pipeline --config pipeline.yaml
複数のOpenClawコマンドと外部ツールを結合する複雑なデータパイプラインを実行します。
抽出、変換、ロード(ETL)のワークフローを効率的に管理できます。
openclaw monitor --selector ".price" --threshold 100
指定されたウェブページの要素を監視し、値が特定の閾値を超えた場合に通知します。
価格変更、在庫状況、ニュース更新などの追跡に最適です。
openclaw webhook --event "scrape_complete" --url "https://api.example.com/notify"
特定のイベント(スクレイピング完了など)発生時に指定されたWebhook URLに通知を送信します。
他のシステムとの統合やリアルタイム通知に活用できます。