1. Comandos Básicos y Configuración
openclaw init
Inicia un nuevo proyecto de scraping de OpenClaw en el directorio actual. Crea la estructura de archivos necesaria.
Usa un nombre descriptivo para tu proyecto para una mejor organización.
openclaw config set
Configura parámetros globales o específicos del proyecto, como el user-agent por defecto o límites de tiempo de espera.
Puedes sobrescribir configuraciones globales a nivel de proyecto editando el archivo 'config.json' del proyecto.
openclaw login --auth
Gestiona la autenticación para sitios web protegidos. Soporta varios tipos de autenticación, como formularios o tokens.
Usa 'openclaw login --help' para ver los tipos de autenticación disponibles y sus opciones.
openclaw status
Muestra el estado actual de un proyecto, incluyendo tareas programadas, últimos resultados y errores reportados.
Ejecuta este comando regularmente para monitorear la salud de tus operaciones de scraping.
openclaw help
Obtiene ayuda detallada sobre un comando específico de OpenClaw, mostrando sus opciones y ejemplos de uso.
Es tu mejor amigo cuando necesitas recordar la sintaxis o las capacidades de un comando.
2. Extracción de Datos
openclaw extract url --selector "CSS/XPath"
Extrae elementos específicos de una URL utilizando selectores CSS o XPath para una extracción precisa.
Combina selectores para refinar tu objetivo y extraer datos anidados de manera eficiente.
openclaw extract text --ai-label "NombreProducto"
Utiliza la inteligencia artificial para identificar y extraer texto relevante de una página web basándose en una etiqueta semántica.
Las etiquetas AI funcionan mejor con nombres claros y descriptivos, como 'PrecioArticulo' o 'DescripcionServicio'.
openclaw extract table --ai-detect
Detecta y extrae tablas de datos automáticamente de una URL, utilizando IA para identificar la estructura tabular.
Ideal para sitios donde la estructura de la tabla no es consistente o no tiene selectores claros.
openclaw extract image --selector "img" --attr "src"
Extrae URLs de imágenes o cualquier otro atributo de elementos seleccionados en una página web.
También puedes usar '--download' para descargar las imágenes directamente a tu sistema local.
openclaw scan --pattern "regex"
Escanea el contenido de una URL para encontrar y extraer todas las ocurrencias que coincidan con una expresión regular dada.
Útil para extraer datos específicos incrustados en el texto que no son fácilmente accesibles con selectores.
3. Navegación y Paginación
openclaw navigate --follow-links "CSS/XPath"
Navega a una URL y sigue automáticamente los enlaces que coincidan con un selector dado, profundizando en el sitio.
Establece un límite de profundidad con '--depth
openclaw paginate --next-button "CSS/XPath" --limit
Automatiza la paginación haciendo clic en un botón 'siguiente' o navegando a enlaces de página hasta un límite especificado.
Asegúrate de que tu selector para el botón 'siguiente' sea robusto y se mantenga consistente en todas las páginas.
openclaw interact --click "CSS/XPath"
Simula interacciones de usuario como clics en botones o enlaces para revelar contenido dinámico o navegar.
Utiliza '--delay
openclaw form-submit --data "campo1=valor1&campo2=valor2"
Envía datos a un formulario web específico en una URL, simulando una interacción de usuario para acceder a contenido post-envío.
Inspecciona el tráfico de red del navegador para identificar los nombres de los campos y los valores correctos del formulario.
4. Procesamiento y Limpieza
openclaw clean --remove-html
Elimina etiquetas HTML y otros elementos no deseados de un campo de texto extraído, dejando solo el texto plano.
Puedes combinarlo con '--strip-whitespace' para eliminar espacios en blanco excesivos al inicio y al final.
openclaw transform --regex "patron" --replace "sub"
Aplica transformaciones a un campo de datos utilizando expresiones regulares para buscar y reemplazar patrones.
Las expresiones regulares son poderosas; prueba tus patrones en un validador antes de usarlos en OpenClaw.
openclaw filter --condition "valor > 10"
Filtra los datos extraídos basándose en condiciones específicas aplicadas a los valores de un campo.
Soporta operadores lógicos como 'AND', 'OR' y 'NOT' para condiciones complejas.
openclaw deduplicate
Elimina filas duplicadas de tu conjunto de datos basándose en los valores de un campo específico.
Es crucial para asegurar la unicidad de los registros, especialmente cuando se combinan múltiples fuentes.
5. Exportación y Almacenamiento
openclaw export csv --output
Exporta los datos extraídos a un archivo en formato CSV (Comma Separated Values).
Usa '--delimiter ";"' para especificar un delimitador diferente si lo necesitas.
openclaw export json --output
Exporta los datos extraídos a un archivo en formato JSON (JavaScript Object Notation).
Ideal para integraciones con APIs o para almacenar datos semiestructurados.
openclaw export db --table --db-config
Guarda los datos extraídos directamente en una tabla de una base de datos, configurada mediante un archivo de conexión.
OpenClaw soporta varias bases de datos SQL y NoSQL; consulta la documentación para ver las configuraciones.
openclaw export s3 --bucket
Sube los datos extraídos a un bucket de Amazon S3, útil para almacenamiento en la nube y data lakes.
Asegúrate de tener las credenciales de AWS configuradas correctamente en tu entorno o en el archivo de configuración.
openclaw export excel --output
Exporta los datos a una hoja de cálculo de Microsoft Excel (.xlsx), manteniendo el formato tabular.
Puedes especificar múltiples hojas con '--sheet
6. Automatización y Programación
openclaw schedule --cron "0 0 * * *"
Programa la ejecución de una tarea de OpenClaw utilizando la sintaxis de cron para intervalos regulares.
Verifica tu expresión cron con una herramienta en línea para asegurar que se ejecuta en el momento deseado.
openclaw run
Ejecuta un script de OpenClaw predefinido que contiene una secuencia de comandos o un flujo de trabajo complejo.
Los scripts permiten modularizar y reutilizar lógica de scraping, haciendo tus proyectos más mantenibles.
openclaw monitor --alert-on-change "CSS/XPath"
Monitorea una URL para detectar cambios en un elemento específico y envía alertas cuando se detecta una diferencia.
Combina con un servicio de notificación (ej. Slack, Email) configurado en 'openclaw config' para recibir alertas instantáneas.
openclaw pipeline create --steps
Define y ejecuta flujos de trabajo complejos, encadenando múltiples comandos de OpenClaw en una secuencia lógica.
Los pipelines son esenciales para proyectos donde se requiere extracción, procesamiento y exportación en un solo flujo.
7. IA y Análisis Avanzado
openclaw analyze sentiment --lang "es"
Realiza un análisis de sentimiento en un bloque de texto dado, clasificándolo como positivo, negativo o neutro.
Ideal para analizar reseñas de productos o comentarios de usuarios extraídos de la web.
openclaw classify --model "industria"
Clasifica texto utilizando modelos de IA preentrenados o personalizados, útil para categorizar contenido.
Puedes entrenar tus propios modelos de clasificación con 'openclaw train model
openclaw summarize --length "short"
Genera un resumen conciso del contenido principal de una URL, utilizando algoritmos de IA para identificar puntos clave.
Ajusta '--length' a 'medium' o 'long' para obtener resúmenes más detallados según tus necesidades.
openclaw entity-extract --types "PERSON,ORG"
Extrae entidades nombradas (personas, organizaciones, lugares, fechas) de un texto, identificando información clave.
Especifica los tipos de entidades que te interesan para un resultado más enfocado y relevante.
openclaw generate schema
Utiliza IA para inferir y generar un esquema de datos estructurado a partir del contenido de una URL, sugiriendo campos y tipos.
Es un excelente punto de partida para definir tu estructura de datos antes de iniciar un scraping complejo.