Pangunahing Pag-scrape at Pagkuha ng Data
openclaw scrape
Isasagawa ang isang basic na pag-scrape ng buong nilalaman ng pahina mula sa ibinigay na URL.
Mabilis na paraan upang makuha ang raw HTML ng isang webpage. Para sa mas detalyadong pagkuha, gumamit ng mga selector.
openclaw extract --selector ""
Kukunin ang mga partikular na elemento mula sa isang pahina gamit ang CSS o XPath selector. Maaari itong magbalik ng text, attributes, o HTML.
Gumamit ng tumpak na selector upang makuha lamang ang kailangan mong data. Maaaring magbigay ng multiple selectors.
openclaw follow --links ""
Susundan ang lahat ng link na tumutugma sa ibinigay na selector mula sa paunang URL at isasagawa ang pag-scrape sa bawat pahina.
Mainam para sa pag-crawl sa maraming pahina. Maaari ring limitahan ang lalim ng pag-crawl gamit ang `--depth`.
openclaw forms submit --data '{"field1": "value1", "field2": "value2"}'
Ipapasa ang data sa isang form sa ibinigay na URL. Ang data ay dapat ibigay sa JSON format.
Maaaring gamitin para sa pag-log in, paghahanap, o pagsumite ng iba pang form. Tiyakin na tama ang mga field name.
openclaw auth login --user --pass
Maglo-login sa isang website gamit ang ibinigay na username at password, at pananatilihin ang session para sa mga susunod na command.
Gumagamit ng AI para matukoy ang login form. Para sa mas kumplikadong authentication, gumamit ng session management.
Advanced na Pag-scrape at Pagsala
openclaw deep-scrape --depth 3 --selector "a.product-link"
Isasagawa ang malalim na pag-scrape sa mga link hanggang sa tinukoy na lalim, na kumukuha ng data mula sa bawat pahina.
Angkop para sa pag-scrape ng mga kategorya ng produkto o nested na nilalaman. Mag-ingat sa lalim upang maiwasan ang pagkaubos ng resources.
openclaw filter --data --query ".items[] | select(.price < 100)"
Sasalain ang na-extract na data mula sa isang JSON file gamit ang isang JQ query, na nagbibigay-daan sa kumplikadong pagmamanipula ng data.
Ang JQ ay isang napakalakas na tool. Pag-aralan ang syntax nito para sa advanced na pagsala at pagbabago ng data.
openclaw render --wait 5
Ire-render ang isang pahina gamit ang isang headless browser, na naghihintay ng tinukoy na bilang ng segundo para ma-load ang lahat ng JavaScript.
Mahalaga para sa mga website na gumagamit ng JavaScript upang dynamically na mag-load ng nilalaman. Maaari ring mag-set ng custom na screen size.
openclaw ai-extract --schema
Gagamitin ang AI upang kumuha ng structured data mula sa isang pahina batay sa ibinigay na JSON schema, awtomatikong kinikilala ang mga field.
Ito ang pinakamalakas na feature ng OpenClaw. Bumuo ng maayos na schema para sa tumpak na pagkuha ng data nang walang manual selectors.
openclaw bypass-captcha
Gagamitin ang AI upang awtomatikong i-solve ang mga CAPTCHA at magpatuloy sa pag-scrape ng pahina.
Para sa mga pahina na protektado ng reCAPTCHA o iba pang visual na CAPTCHA. Tiyakin na mayroon kang sapat na credits para sa AI service.
Pag-automate at Pag-iskedyul
openclaw schedule --name "DailyPrices" --cron "0 9 * * *" --cmd "openclaw scrape example.com/prices --export daily_prices.csv"
Iskedyul ang isang command na tatakbo sa isang tinukoy na oras gamit ang cron syntax. Maaaring ulitin araw-araw, lingguhan, atbp.
Para sa regular na pagkuha ng data. Tiyakin na ang iyong system ay gumagana sa oras ng iskedyul o gumamit ng cloud scheduler.
openclaw monitor --on-change "openclaw notify 'URL changed!'"
Maninindigan sa isang URL at magpapatupad ng isang command kapag may nakitang pagbabago sa nilalaman ng pahina.
Perpekto para sa pagsubaybay sa mga pagbabago ng presyo, stock availability, o balita. Magtakda ng `--interval` para sa dalas ng pag-check.
openclaw workflow run
Ipapagana ang isang pre-defined na scraping at data processing workflow na naka-configure na sa OpenClaw.
Bumuo ng kumplikadong workflow gamit ang `openclaw workflow build` at pagkatapos ay patakbuhin ito nang madali.
openclaw pipeline build --name "MyDataPipeline" --steps "extract,filter,export"
Bumuo ng isang pipeline ng data extraction at processing steps, na nagbibigay-daan para sa modular at reusable na mga gawain.
Idedefine ang bawat step sa isang configuration file. Nagpapataas ito ng kahusayan at pagkakapare-pareho sa iyong mga proyekto.
Pamamahala ng Proxy at Session
openclaw proxy use --list
Gagamitin ang isang listahan ng mga proxy mula sa isang file (isa bawat linya) para sa lahat ng mga kahilingan sa HTTP.
Mahalaga para sa pag-scrape ng malalaking volume at pag-iwas sa pagka-block. Tiyakin na ang iyong mga proxy ay may mataas na kalidad.
openclaw proxy rotate --interval 60
Awtomatikong iikot ang mga proxy mula sa listahan bawat 60 segundo upang magmukhang iba't ibang user.
Pinapanatili ang anonymity at binabawasan ang posibilidad na ma-detect bilang isang bot. Maaari ring i-rotate per request.
openclaw session new --name "MyLoginSession"
Lilikha ng isang bagong session na may sariling cookies, headers, at iba pang state, na maaaring gamitin sa mga susunod na command.
Para sa pagpapanatili ng login state o iba pang session-specific data sa pagitan ng magkahiwalay na command.
openclaw session load --name "MyLoginSession" --cmd "openclaw scrape private.com"
Ilo-load ang isang umiiral na session at gagamitin ito para sa pagpapatupad ng isang partikular na command.
Kapaki-pakinabang pagkatapos mag-login. Maaari ring mag-save ng session pagkatapos ng isang command gamit ang `--save-session`.
openclaw user-agent set "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/100.0.4896.75 Safari/537.36"
Itatakda ang custom na User-Agent header para sa lahat ng mga kahilingan, na nagpapanggap bilang isang regular na browser.
Ang paggamit ng totoong User-Agent ay nakakatulong na maiwasan ang pagka-block. Regular itong i-update sa pinakabagong bersyon ng browser.
Pag-export at Pag-uulat ng Data
openclaw export --format csv --output data.csv
Ie-export ang na-extract na data mula sa isang tinukoy na pinagmulan (hal. isang file o naunang command output) sa CSV format.
Madaling i-import sa mga spreadsheet program. Maaari ring tukuyin ang mga column at delimiter.
openclaw export --format json --pretty --output data.json
Ie-export ang data sa JSON format, na may pretty-printing para sa mas madaling pagbabasa ng tao.
Mainam para sa mga developer at para sa pagpapalitan ng data sa pagitan ng mga system. Ang `--compact` ay para sa mas maliit na file size.
openclaw report generate --template "sales_report.tpl" --data
Bubuo ng isang ulat gamit ang isang template file at ang ibinigay na data, na sumusuporta sa iba't ibang format ng output.
Gumamit ng templating engine tulad ng Handlebars o Jinja para sa dynamic at nako-customize na mga ulat.
openclaw db push --table "scraped_products" --data --upsert
Itutulak ang na-extract na data sa isang database table. Sinusuportahan ang iba't ibang database tulad ng PostgreSQL, MySQL, MongoDB.
Ang `--upsert` option ay mag-u-update ng mga umiiral na record o mag-i-insert ng mga bago, na pumipigil sa mga duplicate.
openclaw cloud sync --bucket "my-s3-bucket" --path "raw_data/$(date +%Y-%m-%d)/"
I-sync ang na-extract na data sa isang cloud storage service tulad ng AWS S3, Google Cloud Storage, o Azure Blob Storage.
Para sa scalable na imbakan at pag-archive ng data. Tiyakin na mayroon kang tamang credentials at pahintulot.
Pag-debug at Pag-troubleshoot
openclaw debug --verbose
Isasagawa ang isang scrape sa debug mode, na nagpapakita ng detalyadong output kabilang ang mga kahilingan sa network, tugon, at mga error.
Mahalaga para sa pagtukoy kung bakit nabigo ang isang scrape o kung bakit hindi nakuha ang inaasahang data.
openclaw logs view --level error
Ipapakita ang mga log ng OpenClaw, na maaaring i-filter ayon sa level (info, warn, error) o timestamp.
Suriin ang mga log upang makita ang mga isyu sa koneksyon, mga error sa selector, o iba pang problema sa panahon ng pagpapatakbo.
openclaw healthcheck --proxy-pool
Susuriin ang kalusugan ng kasalukuyang proxy pool, sinusubukan ang bawat proxy para sa konektibidad at bilis.
Mahalaga bago magsimula ng malaking scraping job upang matiyak na gumagana nang maayos ang iyong mga proxy.
openclaw dry-run "openclaw extract example.com --selector 'h1'"
Papatakbuhin ang isang command nang hindi isinasagawa ang anumang aktwal na pagbabago o pag-export, na nagpapakita lamang ng inaasahang output.
Mabuti para sa pagsubok ng mga command at selector bago ito patakbuhin nang buo, na nagliligtas ng oras at resources.
openclaw validate --selector "div.item-price" --html
Iva-validate ang isang selector laban sa lokal na HTML file upang makita kung tama itong nakakakuha ng mga elemento.
Mas mabilis kaysa sa pagsubok sa isang live na website. I-save ang HTML ng target na pahina para sa offline na pagsubok.