Ultimate Reference

Feuille de Triche Ultime OpenClaw CLI

Votre référence complète pour le web scraping et l'automatisation de données avec OpenClaw, l'outil IA de pointe.

1. Installation et Configuration Initiale

openclaw init
Copied!

Initialise un nouveau projet OpenClaw dans le répertoire courant. Configure les fichiers de configuration de base et les répertoires nécessaires.

Exécutez cette commande au début de chaque nouveau projet pour une structure de fichiers organisée.

openclaw config set API_KEY
Copied!

Définit une variable de configuration globale ou de projet, telle que la clé API pour les services externes ou les identifiants.

Utilisez des variables d'environnement pour les informations sensibles au lieu de les stocker directement dans les fichiers de configuration.

openclaw update
Copied!

Met à jour OpenClaw vers la dernière version stable disponible. Assurez-vous d'avoir les fonctionnalités et correctifs les plus récents.

Exécutez régulièrement cette commande pour bénéficier des améliorations de performance et des nouvelles fonctionnalités.

openclaw doctor
Copied!

Vérifie l'environnement OpenClaw pour les dépendances manquantes, les problèmes de configuration ou les erreurs courantes.

Utilisez 'doctor' pour diagnostiquer rapidement les problèmes si OpenClaw ne se comporte pas comme prévu.

2. Extraction de Données de Base

openclaw scrape --selector "CSS_SELECTOR"
Copied!

Effectue une extraction rapide d'une page web en ciblant des éléments spécifiques via un sélecteur CSS. Retourne le texte ou l'attribut des éléments trouvés.

Utilisez le sélecteur CSS le plus précis possible pour éviter d'extraire des données indésirables.

openclaw extract --schema "path/to/schema.json"
Copied!

Extrait des données structurées d'une URL en utilisant un fichier de schéma JSON prédéfini. Idéal pour des extractions complexes et répétables.

Définissez des schémas robustes pour gérer les cas où les éléments ne sont pas trouvés, par exemple avec des valeurs par défaut.

openclaw find --element "XPATH_EXPRESSION" --attribute "href"
Copied!

Recherche des éléments sur la dernière page visitée ou une URL spécifiée en utilisant une expression XPath et extrait un attribut spécifique.

L'XPath est souvent plus puissant que le CSS pour cibler des éléments basés sur leur texte ou leur position relative.

openclaw list --items "div.produit" --field "titre:h2.nom" --field "prix:span.prix"
Copied!

Extrait une liste d'éléments similaires (par exemple, des produits) d'une page et capture des champs spécifiques pour chaque élément.

Cette commande est parfaite pour les pages de listes de produits, d'articles de blog ou de résultats de recherche.

3. Navigation et Interaction Avancées

openclaw visit
Copied!

Navigue vers l'URL spécifiée. C'est la commande de base pour charger une nouvelle page dans la session de scraping.

Utilisez 'visit' pour réinitialiser l'état du navigateur avant une nouvelle série d'extractions.

openclaw click --selector "button#submit"
Copied!

Clique sur un élément interactif (bouton, lien) identifié par un sélecteur CSS. Simule une interaction utilisateur.

Ajoutez `--wait 2s` après le clic si la page a besoin de temps pour charger de nouveaux contenus.

openclaw fill --selector "input#username" --value "mon_utilisateur"
Copied!

Remplit un champ de formulaire (input, textarea) avec une valeur donnée. Utile pour les formulaires de connexion ou de recherche.

Combinez 'fill' avec 'click' pour automatiser la soumission de formulaires.

openclaw scroll --to "bottom" --delay 500ms
Copied!

Fait défiler la page web jusqu'à un point spécifique (haut, bas, sélecteur) ou pour charger du contenu dynamique.

Le défilement est crucial pour les sites qui chargent du contenu via l'infini scroll.

4. Gestion des Sessions et Authentification

openclaw login --user "user" --pass "password" --form "#loginForm"
Copied!

Automatise le processus de connexion à un site web en remplissant un formulaire et en soumettant les identifiants.

Utilisez des variables d'environnement pour stocker les mots de passe et éviter de les exposer dans vos scripts.

openclaw session save --file "session.json"
Copied!

Sauvegarde l'état actuel de la session du navigateur, y compris les cookies, l'authentification, etc., dans un fichier.

Sauvegardez la session après une connexion réussie pour éviter de vous reconnecter à chaque exécution.

openclaw session load --file "session.json"
Copied!

Charge une session précédemment sauvegardée, permettant de reprendre le scraping sans nouvelle authentification.

Chargez la session au début de votre script pour réutiliser les informations de connexion.

openclaw proxy set --address "http://proxy.example.com:8080"
Copied!

Configure un serveur proxy pour toutes les requêtes OpenClaw, utile pour contourner les restrictions IP ou pour l'anonymat.

Utilisez une rotation de proxies pour des tâches de scraping à grande échelle afin de minimiser les blocages.

5. Traitement et Exportation des Données

openclaw export csv --input "data.json" --output "results.csv"
Copied!

Convertit les données extraites (généralement au format JSON) en un fichier CSV, parfait pour l'analyse dans des tableurs.

Assurez-vous que vos données JSON sont bien structurées pour un export CSV propre.

openclaw export json --input "data.json" --pretty
Copied!

Exporte les données extraites au format JSON, avec une option pour un formatage lisible par l'humain ('pretty').

Le format JSON est idéal pour l'intégration avec d'autres applications ou bases de données NoSQL.

openclaw pipeline add --step "transform:script.js" --output "processed.json"
Copied!

Ajoute une étape de traitement à un pipeline de données, comme l'exécution d'un script JavaScript pour nettoyer ou remodeler les données.

Les pipelines sont essentiels pour automatiser des flux de travail complexes et répétables.

openclaw db push --table "products" --data "output.json"
Copied!

Pousse les données extraites directement vers une base de données configurée. Supporte divers SGBD comme PostgreSQL, MySQL.

Configurez d'abord votre connexion à la base de données via `openclaw config set DB_URL`.

6. Débogage et Optimisation

openclaw debug --url --selector "CSS_SELECTOR"
Copied!

Ouvre une session de débogage interactive pour une URL donnée, permettant de tester les sélecteurs et les interactions en temps réel.

C'est l'outil le plus précieux pour affiner vos sélecteurs et comprendre la structure de la page.

openclaw log level --set "DEBUG"
Copied!

Définit le niveau de verbosité des journaux d'OpenClaw. Utile pour obtenir plus de détails sur l'exécution ou pour réduire le bruit.

Utilisez 'DEBUG' pour les phases de développement et 'INFO' ou 'ERROR' pour la production.

openclaw screenshot --url --output "page.png"
Copied!

Capture une capture d'écran d'une page web spécifique. Aide à visualiser l'état de la page à un moment donné du scraping.

Prenez des captures d'écran avant et après des interactions complexes pour vérifier leur succès.

openclaw validate selector "CSS_SELECTOR" --url
Copied!

Vérifie si un sélecteur CSS ou XPath donné correspond à des éléments sur l'URL spécifiée, et renvoie les correspondances.

Validez toujours vos sélecteurs avant de les intégrer dans des scripts complexes pour gagner du temps.

Questions Fréquemment Posées sur OpenClaw

Qu'est-ce qui rend OpenClaw différent des autres outils de scraping?

OpenClaw intègre l'IA pour l'analyse de page, ce qui lui permet de s'adapter plus facilement aux changements de structure des sites web et de détecter automatiquement des éléments d'intérêt, réduisant ainsi le besoin de maintenance des sélecteurs.

OpenClaw peut-il gérer le JavaScript et les contenus dynamiques?

Oui, OpenClaw utilise un navigateur headless (sans interface graphique) qui exécute JavaScript, ce qui lui permet de gérer les pages web dynamiques, les SPA (Single Page Applications) et les contenus chargés via AJAX.

Est-il légal de faire du web scraping avec OpenClaw?

La légalité du web scraping dépend de plusieurs facteurs, notamment les conditions d'utilisation du site web, la nature des données collectées (personnelles ou publiques), et les lois sur la protection des données (comme le RGPD au Québec/Canada). Il est crucial de respecter ces règles et d'être éthique dans vos pratiques.

Comment puis-je éviter de me faire bloquer par un site web?

Pour éviter les blocages, utilisez des proxies rotatifs, ralentissez la fréquence de vos requêtes (`--delay`), simulez un comportement humain (défilement, clics aléatoires) et changez régulièrement d'User-Agent. Respectez toujours le fichier `robots.txt` du site.

OpenClaw supporte-t-il l'exportation vers des bases de données spécifiques?

Oui, OpenClaw offre des connecteurs pour les bases de données SQL populaires comme PostgreSQL, MySQL, SQLite, et peut également exporter vers des formats NoSQL comme MongoDB via des plugins ou des scripts personnalisés.