स्थापना आणि सेटअप (Installation & Setup)
pip install openclaw
OpenClaw CLI इंस्टॉल करते.
व्हर्च्युअल एन्व्हायर्नमेंट वापरण्याची शिफारस केली जाते.
openclaw --version
स्थापित OpenClaw ची आवृत्ती दर्शवते.
तुम्ही योग्य आवृत्ती वापरत आहात हे तपासण्यासाठी उपयुक्त.
openclaw --help
OpenClaw च्या सर्व उपलब्ध कमांड्स आणि पर्यायांची यादी दर्शवते.
नवीन कमांड्स शोधण्यासाठी किंवा विशिष्ट कमांडबद्दल माहिती मिळवण्यासाठी वापरा.
openclaw init project_name
नवीन OpenClaw प्रोजेक्ट सुरू करते आणि आवश्यक फाइल्स तयार करते.
प्रत्येक नवीन स्क्रॅपिंग कार्यासाठी स्वतंत्र प्रोजेक्ट वापरणे चांगले आहे.
मूलभूत वेब स्क्रॅपिंग (Basic Web Scraping)
openclaw scrape https://example.com
दिलेल्या URL वरून HTML सामग्री स्क्रॅप करते आणि ती कंसोलमध्ये प्रदर्शित करते.
क्विक टेस्टसाठी आणि वेबसाइटची प्रारंभिक रचना पाहण्यासाठी हे वापरा.
openclaw fetch https://example.com --save-to example.html
दिलेल्या URL वरून पृष्ठ सामग्री मिळवते आणि स्थानिक फाइलमध्ये सेव्ह करते.
ऑफलाइन विश्लेषण किंवा डीबगिंगसाठी पूर्ण पृष्ठ सामग्री जतन करा.
openclaw get-links https://example.com
दिलेल्या URL वरून सर्व हायपरलिंक्स (href ॲट्रिब्यूट) काढते.
वेबसाइटच्या नेव्हिगेशनची रचना समजून घेण्यासाठी किंवा क्रॉल करण्यासाठी दुवे गोळा करण्यासाठी उपयुक्त.
openclaw screenshot https://example.com --output screenshot.png
दिलेल्या URL चा स्क्रीनशॉट घेते आणि PNG फाइल म्हणून सेव्ह करते.
रेंडर केलेल्या पृष्ठाचे व्हिज्युअल प्रूफ किंवा डीबगिंगसाठी वापरा.
डेटा निष्कर्षण (Data Extraction)
openclaw extract https://example.com --selector "h1.title"
दिलेल्या URL वरून विशिष्ट CSS सिलेक्टरशी जुळणारी सामग्री काढते.
विशिष्ट HTML घटकांमधून डेटा काढण्यासाठी हे आवश्यक आहे.
openclaw extract https://example.com --xpath "//div[@class='product-name']/text()"
दिलेल्या URL वरून विशिष्ट XPath एक्सप्रेशन वापरून डेटा काढते.
जटिल HTML संरचनांमधून डेटा काढण्यासाठी XPath अधिक शक्तिशाली असू शकते.
openclaw extract https://example.com --json-path "$.data.items[*].name"
JSON API एंडपॉईंटवरून JSON Path वापरून डेटा काढते.
थेट JSON डेटा स्रोतांशी व्यवहार करताना हे खूप उपयुक्त आहे.
openclaw extract https://example.com --regex "Price: (\d+\.\d{2})"
पृष्ठाच्या सामग्रीमधून नियमित एक्सप्रेशन (regex) वापरून डेटा काढते.
संरचित नसलेल्या किंवा अर्ध-संरचित डेटामधून विशिष्ट नमुने शोधण्यासाठी वापरा.
प्रगत फिल्टरिंग आणि नेव्हिगेशन (Advanced Filtering & Navigation)
openclaw scrape https://example.com --filter "price > 100"
स्क्रॅप केलेल्या डेटामधून विशिष्ट अटी पूर्ण करणाऱ्या नोंदी फिल्टर करते.
केवळ संबंधित डेटा मिळवण्यासाठी फिल्टरिंग वापरा.
openclaw crawl https://example.com --depth 2
दिलेल्या URL पासून सुरू करून, निर्दिष्ट खोलीपर्यंत वेबसाइट क्रॉल करते.
अनेक पृष्ठांवर डेटा गोळा करण्यासाठी किंवा संपूर्ण साइट मॅप करण्यासाठी हे वापरा.
openclaw paginate https://example.com/products?page={page} --start 1 --end 5
पॅजिनेटेड पृष्ठांवरून डेटा स्क्रॅप करते, `{page}` प्लेसहोल्डर वापरून.
अनेक पृष्ठे असलेल्या उत्पादनाच्या सूची किंवा ब्लॉग पोस्टमधून डेटा काढण्यासाठी उपयुक्त.
openclaw interact https://example.com --click "button#next-page"
जावास्क्रिप्ट-आधारित वेबसाइट्सशी संवाद साधते, जसे की बटणावर क्लिक करणे.
डायनॅमिक सामग्री लोड करण्यासाठी किंवा फॉर्म सबमिट करण्यासाठी आवश्यक.
आउटपुट आणि निर्यात (Output & Export)
openclaw extract https://example.com --selector "div.item" --output items.json
काढलेला डेटा JSON फॉरमॅटमध्ये फाइलमध्ये सेव्ह करते.
इतर ऍप्लिकेशन्समध्ये वापरण्यासाठी संरचित डेटा JSON मध्ये निर्यात करा.
openclaw extract https://example.com --selector "table tr" --output data.csv --format csv
काढलेला डेटा CSV फॉरमॅटमध्ये फाइलमध्ये सेव्ह करते.
स्प्रेडशीट्स किंवा डेटाबेसमध्ये वापरण्यासाठी डेटा CSV मध्ये निर्यात करा.
openclaw extract https://example.com --selector "p.description" --output descriptions.txt --format plain
काढलेला डेटा साध्या टेक्स्ट फॉरमॅटमध्ये फाइलमध्ये सेव्ह करते.
अनस्ट्रक्चर्ड टेक्स्ट डेटा साध्या टेक्स्ट फाइलमध्ये जतन करण्यासाठी.
openclaw scrape https://example.com --output-stdout
स्क्रॅप केलेला डेटा थेट स्टँडर्ड आउटपुट (कंसोल) वर पाठवते.
इतर कमांड्समध्ये डेटा पाइप करण्यासाठी किंवा त्वरित तपासणीसाठी उपयुक्त.
ऑटोमेशन आणि शेड्युलिंग (Automation & Scheduling)
openclaw run-script my_script.py
पायथन स्क्रिप्ट चालवते जी OpenClaw लायब्ररी वापरते.
जटिल स्क्रॅपिंग लॉजिकसाठी सानुकूल पायथन स्क्रिप्ट लिहा.
openclaw schedule "0 0 * * *" "scrape https://example.com --output daily_report.json"
निर्दिष्ट Cron एक्सप्रेशन वापरून स्क्रॅपिंग कार्य शेड्यूल करते.
नियमित डेटा अपडेट्स किंवा मॉनिटरिंगसाठी ऑटोमॅटिक स्क्रॅपिंग सेट करा.
openclaw monitor https://example.com --check-interval 60 --diff-output changes.json
वेबसाइटमधील बदलांसाठी मॉनिटर करते आणि फरक रेकॉर्ड करते.
वेबसाइट बदलांचा मागोवा घेण्यासाठी किंवा नवीन सामग्रीसाठी सूचना मिळवण्यासाठी.
openclaw batch-scrape urls.txt --output combined_data.json
`urls.txt` फाइलमधील URL च्या सूचीमधून डेटा बॅचमध्ये स्क्रॅप करते.
एकाच वेळी अनेक URL वरून डेटा कार्यक्षमतेने गोळा करा.