1. Instalación e Configuración
openclaw install --global
Instala OpenClaw globalmente no teu sistema para acceso desde calquera directorio.
Asegúrate de ter Node.js ou Python (dependendo da implementación imaxinaria de OpenClaw) instalado antes da instalación.
openclaw init my_project --template basic-scraper
Inicializa un novo proxecto OpenClaw cunha estrutura de directorios e ficheiros predefinida.
Explora os modelos dispoñibles con 'openclaw templates list' para comezar rapidamente.
openclaw config set proxy.url http://proxy.example.com:8080
Configura axustes específicos do proxecto ou globais, como un servidor proxy.
Utiliza proxies para evitar bloqueos de IP e distribuír as solicitudes.
openclaw auth add --name my_api_key --value YOUR_KEY --type env
Xestiona credenciais de autenticación de forma segura, almacenándoas como variables de contorno.
Evita codificar credenciais directamente nos teus scripts para mellor seguridade.
openclaw update
Actualiza a túa instalación de OpenClaw á última versión dispoñible.
Mantén OpenClaw actualizado para acceder ás últimas funcións e correccións de seguridade.
2. Extracción de Datos Esenciais
openclaw scrape https://example.com --selector "h1.title" --output title.txt
Extrae o texto dun elemento específico (neste caso, un h1 cunha clase 'title') dunha URL.
Usa selectores CSS ou XPath precisos para garantir a extracción correcta dos datos.
openclaw extract --url https://example.com/products --schema product_schema.json --format json
Extrae datos dunha páxina usando un esquema predefinido (JSON ou YAML) para estruturar a saída.
Define un esquema para garantir a consistencia e validación dos datos extraídos.
openclaw follow --url https://example.com/blog --links "a.next-page" --depth 2 --output articles.csv
Segue ligazóns de paginación ou subpáxinas ata unha profundidade especificada e extrae datos.
Controla a profundidade para evitar rastexos infinitos e optimizar o rendemento.
openclaw render --url https://dynamic.site.com --wait 5000 --selector "#data-container"
Renderiza páxinas web dinámicas (JavaScript) e espera un tempo ou un selector para que o contido cargue.
Esencial para sitios que cargan contido despois da renderización inicial do DOM.
openclaw capture --url https://example.com/form --field "username=test" --field "password=pass" --method POST
Envía datos a un formulario web e captura a resposta, útil para iniciar sesión ou enviar entradas.
Analiza o tráfico de rede do navegador para identificar nomes de campos e métodos de envío.
3. Navegación e Interacción Avanzada
openclaw browse --url https://example.com/login --click "#login-btn" --fill "input[name=user]=myuser" --screenshot login_success.png
Simula a navegación do usuario, facendo clic en elementos e enchendo campos de formulario.
Podes encadear múltiples accións como 'click', 'fill', 'scroll' nunha soa execución.
openclaw execute --url https://example.com --script "document.querySelector('#my-element').innerText"
Executa código JavaScript arbitrario no contexto da páxina web cargada.
Ideal para extraer datos que son difíciles de acadar con selectores puros ou para interactuar de forma complexa.
openclaw intercept --url "https://api.example.com/*" --resource xhr --save-payload api_responses/
Intercepta solicitudes de rede (XHR, fetch, etc.) e garda os seus payloads.
Moi útil para extraer datos de APIs internas que alimentan sitios web dinámicos.
openclaw scroll --url https://longpage.com --to bottom --wait 2000 --extract-selector ".item"
Despraza a páxina cara abaixo (ou a un selector específico) para cargar contido adicional antes de extraer.
Usar con '--wait' para permitir que o contido dinámico se cargue despois do desprazamento.
openclaw cookie add --domain example.com --name session_id --value abc123def
Engade cookies personalizadas á sesión de navegación para manter o estado ou a autenticación.
As cookies son cruciais para xestionar sesións de usuario e acceder a contido restrinxido.
4. Manexo e Filtrado de Datos
openclaw transform --input raw_data.json --jq-filter '.[] | select(.price < 100)' --output filtered_data.json
Transforma ou filtra datos JSON usando unha sintaxe de filtro similar a 'jq'.
'jq' é unha ferramenta poderosa para manipular datos JSON; aprende a súa sintaxe para filtros complexos.
openclaw merge --inputs data1.csv data2.csv --key product_id --output merged.csv
Combina varios ficheiros de datos (CSV, JSON) baseándose nunha clave común.
Asegúrate de que as claves de fusión sexan consistentes entre os ficheiros de entrada.
openclaw clean --input messy_data.csv --remove-duplicates --trim-whitespace --output clean.csv
Limpa datos eliminando duplicados, espazos en branco e aplicando outras regras de limpeza.
A limpeza de datos é un paso crítico para garantir a calidade e fiabilidade da túa información.
openclaw validate --input extracted.json --schema validation_rules.json
Valida os datos extraídos contra un esquema JSON ou regras predefinidas.
A validación axuda a identificar problemas na extracción ou na estrutura dos datos.
openclaw export --input final_data.json --format excel --output final_report.xlsx
Exporta os datos procesados a diferentes formatos como CSV, JSON, Excel, XML ou bases de datos.
Elixe o formato de exportación máis axeitado para o teu seguinte paso no fluxo de traballo de datos.
5. Automatización e Planificación
openclaw run --task daily_report_scraper.js
Executa unha tarefa de scraping ou un script de automatización predefinido.
Organiza as túas tarefas en ficheiros separados para mellor mantemento e reutilización.
openclaw schedule add --name "daily_scrape" --interval "24h" --command "openclaw run --task product_data.js"
Planifica a execución automática de comandos OpenClaw a intervalos regulares.
Usa cron jobs ou servizos de planificación externos para unha maior robustez.
openclaw monitor --url https://example.com/status --selector ".status-indicator" --alert-on "offline"
Monitoriza cambios nunha páxina web e envía alertas cando se detectan condicións específicas.
Configura alertas por correo electrónico ou Slack para estar informado de cambios críticos.
openclaw deploy --project my_scraper_project --target cloud_platform
Desprega o teu proxecto OpenClaw a unha plataforma na nube para execucións escalables.
As plataformas na nube ofrecen escalabilidade e fiabilidade para proxectos de scraping a gran escala.
openclaw webhook add --event "scrape_success" --url "https://api.example.com/callback"
Configura webhooks para notificar a outras aplicacións cando ocorren certos eventos.
Os webhooks permiten integrar OpenClaw con outros sistemas e automatizar fluxos de traballo.
6. Xestión de Erros e Depuración
openclaw debug --url https://problematic.site.com --verbose --log-level debug
Executa un comando en modo depuración, mostrando información detallada de rexistro.
Aumenta o nivel de rexistro para obter máis detalles sobre o que está a suceder internamente.
openclaw inspect --url https://example.com --selector "div#main-content" --browser
Abre a páxina nun navegador sen cabeza interactivo ou visual para inspeccionar elementos e depurar.
O modo '--browser' é invaluable para visualizar o que OpenClaw está "vendo" e depurar selectores.
openclaw retry --command "openclaw scrape ..." --attempts 3 --delay 5000
Reintenta a execución dun comando un número especificado de veces en caso de fallo, con atraso entre reintentos.
Útil para xestionar erros transitorios da rede ou de sitios web.
openclaw report --task failed_scrape.js --output error_report.json
Xera un informe detallado dos erros e fallos ocorridos durante unha execución de tarefa.
Analiza os informes de erros para identificar patróns e mellorar a robustez dos teus scripts.
openclaw healthcheck --project my_scraper_project
Executa unha serie de comprobacións para asegurar que o proxecto está configurado correctamente e sen problemas.
Realiza comprobacións de saúde regularmente para detectar problemas antes de que afecten a produción.