Referencia Definitiva

OpenClaw CLI: Hoja de Comandos Esencial

La referencia definitiva para la extracción de datos y automatización web con IA.

1. Comandos Básicos y Configuración

openclaw init
Copied!

Inicia un nuevo proyecto de scraping de OpenClaw en el directorio actual. Crea la estructura de archivos necesaria.

Usa un nombre descriptivo para tu proyecto para una mejor organización.

openclaw config set
Copied!

Configura parámetros globales o específicos del proyecto, como el user-agent por defecto o límites de tiempo de espera.

Puedes sobrescribir configuraciones globales a nivel de proyecto editando el archivo 'config.json' del proyecto.

openclaw login --auth
Copied!

Gestiona la autenticación para sitios web protegidos. Soporta varios tipos de autenticación, como formularios o tokens.

Usa 'openclaw login --help' para ver los tipos de autenticación disponibles y sus opciones.

openclaw status
Copied!

Muestra el estado actual de un proyecto, incluyendo tareas programadas, últimos resultados y errores reportados.

Ejecuta este comando regularmente para monitorear la salud de tus operaciones de scraping.

openclaw help
Copied!

Obtiene ayuda detallada sobre un comando específico de OpenClaw, mostrando sus opciones y ejemplos de uso.

Es tu mejor amigo cuando necesitas recordar la sintaxis o las capacidades de un comando.

2. Extracción de Datos

openclaw extract url --selector "CSS/XPath"
Copied!

Extrae elementos específicos de una URL utilizando selectores CSS o XPath para una extracción precisa.

Combina selectores para refinar tu objetivo y extraer datos anidados de manera eficiente.

openclaw extract text --ai-label "NombreProducto"
Copied!

Utiliza la inteligencia artificial para identificar y extraer texto relevante de una página web basándose en una etiqueta semántica.

Las etiquetas AI funcionan mejor con nombres claros y descriptivos, como 'PrecioArticulo' o 'DescripcionServicio'.

openclaw extract table --ai-detect
Copied!

Detecta y extrae tablas de datos automáticamente de una URL, utilizando IA para identificar la estructura tabular.

Ideal para sitios donde la estructura de la tabla no es consistente o no tiene selectores claros.

openclaw extract image --selector "img" --attr "src"
Copied!

Extrae URLs de imágenes o cualquier otro atributo de elementos seleccionados en una página web.

También puedes usar '--download' para descargar las imágenes directamente a tu sistema local.

openclaw scan --pattern "regex"
Copied!

Escanea el contenido de una URL para encontrar y extraer todas las ocurrencias que coincidan con una expresión regular dada.

Útil para extraer datos específicos incrustados en el texto que no son fácilmente accesibles con selectores.

3. Navegación y Paginación

openclaw navigate --follow-links "CSS/XPath"
Copied!

Navega a una URL y sigue automáticamente los enlaces que coincidan con un selector dado, profundizando en el sitio.

Establece un límite de profundidad con '--depth ' para evitar bucles infinitos o un scraping excesivo.

openclaw paginate --next-button "CSS/XPath" --limit
Copied!

Automatiza la paginación haciendo clic en un botón 'siguiente' o navegando a enlaces de página hasta un límite especificado.

Asegúrate de que tu selector para el botón 'siguiente' sea robusto y se mantenga consistente en todas las páginas.

openclaw interact --click "CSS/XPath"
Copied!

Simula interacciones de usuario como clics en botones o enlaces para revelar contenido dinámico o navegar.

Utiliza '--delay ' para esperar que los elementos se carguen antes de interactuar con ellos.

openclaw form-submit --data "campo1=valor1&campo2=valor2"
Copied!

Envía datos a un formulario web específico en una URL, simulando una interacción de usuario para acceder a contenido post-envío.

Inspecciona el tráfico de red del navegador para identificar los nombres de los campos y los valores correctos del formulario.

4. Procesamiento y Limpieza

openclaw clean --remove-html
Copied!

Elimina etiquetas HTML y otros elementos no deseados de un campo de texto extraído, dejando solo el texto plano.

Puedes combinarlo con '--strip-whitespace' para eliminar espacios en blanco excesivos al inicio y al final.

openclaw transform --regex "patron" --replace "sub"
Copied!

Aplica transformaciones a un campo de datos utilizando expresiones regulares para buscar y reemplazar patrones.

Las expresiones regulares son poderosas; prueba tus patrones en un validador antes de usarlos en OpenClaw.

openclaw filter --condition "valor > 10"
Copied!

Filtra los datos extraídos basándose en condiciones específicas aplicadas a los valores de un campo.

Soporta operadores lógicos como 'AND', 'OR' y 'NOT' para condiciones complejas.

openclaw deduplicate
Copied!

Elimina filas duplicadas de tu conjunto de datos basándose en los valores de un campo específico.

Es crucial para asegurar la unicidad de los registros, especialmente cuando se combinan múltiples fuentes.

5. Exportación y Almacenamiento

openclaw export csv --output
Copied!

Exporta los datos extraídos a un archivo en formato CSV (Comma Separated Values).

Usa '--delimiter ";"' para especificar un delimitador diferente si lo necesitas.

openclaw export json --output
Copied!

Exporta los datos extraídos a un archivo en formato JSON (JavaScript Object Notation).

Ideal para integraciones con APIs o para almacenar datos semiestructurados.

openclaw export db --table --db-config
Copied!

Guarda los datos extraídos directamente en una tabla de una base de datos, configurada mediante un archivo de conexión.

OpenClaw soporta varias bases de datos SQL y NoSQL; consulta la documentación para ver las configuraciones.

openclaw export s3 --bucket
Copied!

Sube los datos extraídos a un bucket de Amazon S3, útil para almacenamiento en la nube y data lakes.

Asegúrate de tener las credenciales de AWS configuradas correctamente en tu entorno o en el archivo de configuración.

openclaw export excel --output
Copied!

Exporta los datos a una hoja de cálculo de Microsoft Excel (.xlsx), manteniendo el formato tabular.

Puedes especificar múltiples hojas con '--sheet ' para organizar tu exportación.

6. Automatización y Programación

openclaw schedule --cron "0 0 * * *"
Copied!

Programa la ejecución de una tarea de OpenClaw utilizando la sintaxis de cron para intervalos regulares.

Verifica tu expresión cron con una herramienta en línea para asegurar que se ejecuta en el momento deseado.

openclaw run
Copied!

Ejecuta un script de OpenClaw predefinido que contiene una secuencia de comandos o un flujo de trabajo complejo.

Los scripts permiten modularizar y reutilizar lógica de scraping, haciendo tus proyectos más mantenibles.

openclaw monitor --alert-on-change "CSS/XPath"
Copied!

Monitorea una URL para detectar cambios en un elemento específico y envía alertas cuando se detecta una diferencia.

Combina con un servicio de notificación (ej. Slack, Email) configurado en 'openclaw config' para recibir alertas instantáneas.

openclaw pipeline create --steps
Copied!

Define y ejecuta flujos de trabajo complejos, encadenando múltiples comandos de OpenClaw en una secuencia lógica.

Los pipelines son esenciales para proyectos donde se requiere extracción, procesamiento y exportación en un solo flujo.

7. IA y Análisis Avanzado

openclaw analyze sentiment --lang "es"
Copied!

Realiza un análisis de sentimiento en un bloque de texto dado, clasificándolo como positivo, negativo o neutro.

Ideal para analizar reseñas de productos o comentarios de usuarios extraídos de la web.

openclaw classify --model "industria"
Copied!

Clasifica texto utilizando modelos de IA preentrenados o personalizados, útil para categorizar contenido.

Puedes entrenar tus propios modelos de clasificación con 'openclaw train model --data '.

openclaw summarize --length "short"
Copied!

Genera un resumen conciso del contenido principal de una URL, utilizando algoritmos de IA para identificar puntos clave.

Ajusta '--length' a 'medium' o 'long' para obtener resúmenes más detallados según tus necesidades.

openclaw entity-extract --types "PERSON,ORG"
Copied!

Extrae entidades nombradas (personas, organizaciones, lugares, fechas) de un texto, identificando información clave.

Especifica los tipos de entidades que te interesan para un resultado más enfocado y relevante.

openclaw generate schema
Copied!

Utiliza IA para inferir y generar un esquema de datos estructurado a partir del contenido de una URL, sugiriendo campos y tipos.

Es un excelente punto de partida para definir tu estructura de datos antes de iniciar un scraping complejo.

Preguntas Frecuentes sobre OpenClaw

¿Qué es OpenClaw?

OpenClaw es una herramienta de línea de comandos (CLI) avanzada que utiliza inteligencia artificial para simplificar y automatizar el web scraping, la extracción de datos y el análisis de información de la web.

¿Necesito conocimientos de programación para usar OpenClaw?

Si bien conocer selectores CSS o XPath es útil, OpenClaw está diseñado para ser accesible. Sus funciones de IA pueden ayudar a identificar y extraer datos sin necesidad de selectores complejos en muchos casos.

¿OpenClaw soporta JavaScript en las páginas?

Sí, OpenClaw tiene la capacidad de renderizar páginas web, lo que le permite interactuar y extraer datos de sitios que dependen en gran medida de JavaScript para cargar su contenido.

¿Cómo maneja OpenClaw los sitios con autenticación?

OpenClaw ofrece comandos para gestionar sesiones de autenticación, permitiéndote iniciar sesión y mantener el acceso a sitios protegidos durante tus tareas de scraping.

¿Es OpenClaw adecuado para proyectos a gran escala?

Absolutamente. OpenClaw está diseñado para escalar, ofreciendo funcionalidades de automatización, programación y exportación a diversas bases de datos y formatos, lo que lo hace ideal para proyectos de cualquier tamaño.