Grundlæggende Dataekstraktion
openclaw extract url --selector ""
Ekstraherer data fra en specifik URL ved hjælp af en CSS-selektor eller XPath.
Brug --json for at formatere output som JSON for nem parsing.
openclaw fetch --html-only
Henter rå HTML-indhold fra en URL uden at udføre yderligere parsing.
Nyttigt til at debugge eller gemme hele sidens kildekode.
openclaw analyze --ai-suggest-selectors
Bruger AI til at analysere en webside og foreslå potentielle CSS-selektorer for almindelige datafelter (f.eks. pris, titel, beskrivelse).
Et godt startpunkt for at finde de rigtige selektorer hurtigt.
openclaw table-extract --table-index
Ekstraherer data fra en HTML-tabel på den angivne URL. Kan specificere tabel via indeks eller AI-identifikation.
Brug --output csv for direkte CSV-eksport af tabeldata.
Avanceret Scraping og Navigation
openclaw crawl --depth --follow-links ""
Starter en crawler fra en start-URL og følger links op til en specificeret dybde, filtreret af et mønster.
Brug regulære udtryk i --follow-links for præcis kontrol over hvilke links der følges.
openclaw paginate --range - --delay
Scraper over flere sider ved at iterere gennem en URL-skabelon med et nummereret område, med en forsinkelse mellem anmodninger.
Implementer --proxy for at undgå IP-blokering ved hyppige anmodninger.
openclaw interact --click "" --wait
Simulerer browserinteraktioner som at klikke på elementer, vente og derefter scrape. Ideel til dynamiske sider.
Kan kombineres med --screenshot for at se resultatet af interaktionen.
openclaw form-submit --data "field1=value1&field2=value2"
Sender data til en HTML-formular på en webside, nyttigt for at logge ind eller søge.
Brug --method POST eller GET afhængigt af formularens konfiguration.
Datahåndtering og Eksport
openclaw output --format json --file output.json
Gemmer ekstraherede data til en fil i et specificeret format (JSON, CSV, XML).
Kan pipe output fra andre kommandoer direkte ind i denne.
openclaw merge --key "id" --output merged.csv
Sammenfletter data fra to eller flere filer baseret på en fælles nøgle.
Understøtter forskellige fletningsstrategier (inner, outer, left, right join).
openclaw filter --query "price > 100" --output filtered.json
Filtrerer data i en fil baseret på et udtryk eller en betingelse.
Understøtter komplekse SQL-lignende forespørgsler.
openclaw transform --script "data.price = parseFloat(data.price) * 1.25"
Anvender et brugerdefineret script (f.eks. JavaScript) til at transformere data i en fil.
Perfekt til at rense, formatere eller beregne nye felter.
AI-Drevet Intelligens
openclaw smart-extract --ai-schema "Produkt Titel, Pris, Billede URL"
Bruger AI til at identificere og ekstrahere data baseret på en menneskelig læsbar skema definition.
Meget effektiv på sider med variabel struktur, hvor traditionelle selektorer fejler.
openclaw sentiment-analyze --language da
Analyserer sentimentet (positivt, negativt, neutralt) af tekst fra en URL eller direkte input.
Kan bruges på anmeldelser eller kommentarer for at vurdere kundetilfredshed.
openclaw classify --categories "Sport, Teknologi, Mad"
Klassificerer tekstindhold i foruddefinerede kategorier ved hjælp af AI.
Nyttigt til at organisere store mængder tekstdata automatisk.
openclaw summarize --length short
Genererer en kortfattet opsummering af indholdet på en webside ved hjælp af AI.
Spar tid ved hurtigt at forstå kernen af lange artikler.
Proxy og Hovedløs Browsing
openclaw fetch --proxy "http://user:[email protected]:8080"
Udfører en anmodning via en specifik proxy-server for at skjule din IP-adresse.
Roterende proxylister kan defineres i en konfigurationsfil.
openclaw config set proxy-list /path/to/proxies.txt
Konfigurerer OpenClaw til at bruge en liste af proxyservere fra en fil, der roteres automatisk.
Hver linje i filen skal være en ny proxy-adresse.
openclaw render --headless --screenshot output.png
Renderer en webside i en hovedløs browser (Chromium) og tager et skærmbillede.
Essentielt for at scrape JavaScript-tunge sider, der indlæser indhold dynamisk.
openclaw user-agent set "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
Angiver en brugerdefineret User-Agent-header for alle udgående anmodninger.
Efterligning af ægte browser-agenter reducerer risikoen for at blive blokeret.
Automatisering og Planlægning
openclaw schedule "0 0 * * *" "openclaw crawl --output daily_report.json"
Planlægger en OpenClaw-kommando til at køre på et specifikt tidspunkt ved hjælp af cron-syntaks.
Sørg for at OpenClaw-processen har de nødvendige rettigheder til at køre baggrundsopgaver.
openclaw workflow run my_workflow.json
Udfører en foruddefineret workflow-fil, der indeholder en sekvens af OpenClaw-kommandoer.
Workflows er ideelle til komplekse, multistep scraping-opgaver.
openclaw monitor --changes-only --notify [email protected]
Overvåger en webside for ændringer og sender en notifikation, hvis ændringer detekteres.
Kan specificere selektorer for kun at overvåge bestemte dele af siden.
openclaw export-config --path ~/.openclaw/config.json
Eksporterer den nuværende OpenClaw-konfiguration til en fil, nyttigt for backup eller deling.
Konfigurationsfiler kan indeholde proxylister, standardheadere og API-nøgler.