Grundläggande Skrapning och Hämtning
openclaw fetch
Hämtar den råa HTML-koden från en specificerad URL. Används för att fånga sidans innehåll innan extraktion.
Använd --save för att spara HTML-koden lokalt för offline-analys.
openclaw extract --selector ""
Extraherar specifika element från en webbsida med hjälp av en CSS-selektor. Returnerar matchande element som text eller HTML.
Kombinera med --attr för att extrahera specifika attribut som 'href' eller 'src'.
openclaw crawl --depth
Kryper igenom länkar från en start-URL upp till ett angivet djup (N). Används för att utforska flera sidor på en webbplats.
Använd --pattern för att begränsa krypningen till specifika URL-mönster.
openclaw list --links --pattern "/produkter/"
Listar alla länkar på en sida som matchar ett reguljärt uttryck. Perfekt för att hitta specifika resurser eller undersidor.
Använd --images för att lista bild-URL:er istället för länkar.
AI-driven Extraktion och Analys
openclaw analyze --goal "produktpriser och namn"
Använder AI för att intelligent extrahera data baserat på ett naturligt språk-mål, utan behov av CSS-selektorer.
Var specifik med ditt mål för bättre och mer precisa resultat från AI:n.
openclaw schema --template
Extraherar data enligt ett fördefinierat JSON-schema. AI:n mappar automatiskt sidans innehåll till schemastrukturen.
Skapa ett robust schema med exempeldata för att vägleda AI:n effektivt.
openclaw summarize --query "viktiga punkter om tjänsten"
Genererar en sammanfattning av webbsidans innehåll baserat på en specifik fråga. Använder AI för att förstå och kondensera information.
Använd för att snabbt få en överblick över långa artiklar eller recensioner.
openclaw identify --entity "personnamn, organisationer"
Identifierar och extraherar specifika entiteter som personnamn, platser eller organisationer från text eller en webbsida.
Kan användas på lokal text med --input-file istället för en URL.
Datafiltrering och Transformering
openclaw filter --jsonpath "$.produkter[?(@.pris < 500)]"
Filtrerar JSON-data med hjälp av JSONPath-uttryck. Användbart för att välja ut specifika poster baserat på villkor.
JSONPath-uttryck är kraftfulla; testa dem med ett litet dataset först.
openclaw transform --jq '.[] | {artikelnamn: .namn, pris_sek: .pris}'
Transformerar JSON-data med JQ-syntax. Möjliggör omstrukturering, ommappning och beräkningar av data.
JQ är ett mini-programmeringsspråk; behärska grunderna för avancerad datamanipulation.
openclaw clean --rules "trim_whitespace, remove_duplicates(id)"
Rensar data genom att tillämpa fördefinierade regler som att trimma mellanslag eller ta bort dubbletter baserat på en nyckel.
Skapa egna rengöringsregler i en konfigurationsfil för återanvändning.
openclaw merge --key "produkt_id"
Slår ihop två JSON-filer eller dataset baserat på en gemensam nyckel. Användbart för att kombinera data från olika källor.
Se till att nyckelfälten har samma format i båda filerna för korrekt sammanslagning.
Autentisering och Sessioner
openclaw login --user --pass
Loggar in på en webbplats genom att skicka in användarnamn och lösenord. Hanterar ofta formulärbaserad autentisering automatiskt.
Använd --session för att spara inloggningssessionen för framtida kommandon.
openclaw session start
Startar en namngiven session som kan återanvändas för att bibehålla inloggningsstatus eller cookies över flera kommandon.
Sessionsdata lagras lokalt och kan tas bort med 'openclaw session clear
openclaw session use --fetch
Använder en befintlig session för att utföra en åtgärd, till exempel att hämta en sida som kräver autentisering.
Detta är avgörande för att skrapa skyddade sidor efter inloggning.
openclaw proxy add --auth
Lägger till en proxy till OpenClaw:s konfiguration. Stöder autentiserade proxys för att maskera din IP-adress.
Använd roterande proxys för att undvika att bli blockerad under storskalig skrapning.
Export och Lagring
openclaw export --format json --output resultat.json
Exporterar extraherad eller bearbetad data till en JSON-fil. Standardformat för strukturerad data.
Pipe utdata från andra kommandon direkt till export för smidiga arbetsflöden.
openclaw export --format csv --delimiter ";" --output resultat.csv
Exporterar data till en CSV-fil, med möjlighet att specificera avgränsare. Bra för kalkylbladsprogram.
Se till att din data är platt och inte kapslad för bästa CSV-kompatibilitet.
openclaw db store --table produkter --db-config
Lagra data direkt i en databas. Stöder olika databaser via konfigurationsfiler.
Konfigurera databasanslutningen noggrant för att undvika datakorruption.
openclaw upload --target s3://min-bucket/data.json
Laddar upp extraherad data till molnlagring som Amazon S3 eller Google Cloud Storage.
Säkerställ att dina molnautentiseringsuppgifter är korrekt konfigurerade.
Felsökning och Optimering
openclaw debug --verbose
Aktiverar detaljerad felsökningsinformation under en skrapningsprocess, inklusive nätverksförfrågningar och svar.
Använd --log-file för att spara felsökningsloggarna för senare analys.
openclaw validate
Validerar extraherad data mot ett givet JSON-schema för att säkerställa dataintegritet och formatkorrekthet.
Automatisera validering i dina skrapnings-pipelines för att fånga fel tidigt.
openclaw benchmark
Mäter exekveringstiden och resursförbrukningen för ett OpenClaw-kommando. Användbart för prestandaoptimering.
Benchmarka olika selektorer eller AI-mål för att hitta den mest effektiva metoden.
openclaw cache clear --all
Rensar OpenClaw:s lokala cache. Användbart när du vill säkerställa att du alltid hämtar den senaste informationen från webben.
Rensa specifika URL:er från cachen med --url-pattern för mer finjusterad kontroll.