OpenClaw CLI वेब स्क्रैपिंग चीट शीट - डेटा ऑटोमेशन कमांड्स

प्रारंभिक सेटअप और कॉन्फ़िगरेशन


                            openclaw init

एक नया OpenClaw प्रोजेक्ट आरंभ करता है। यह आवश्यक फ़ाइलों और डायरेक्ट्रियों को सेट करता है।

अपने प्रोजेक्ट को व्यवस्थित रखने के लिए हमेशा एक नए प्रोजेक्ट के साथ शुरुआत करें।


                            openclaw config set api_key

OpenClaw सेवा के लिए अपनी API कुंजी कॉन्फ़िगर करता है। यह प्रमाणीकरण के लिए आवश्यक है।

अपनी API कुंजी को सुरक्षित रखें और इसे सार्वजनिक रूप से साझा न करें।


                            openclaw auth login

OpenClaw प्लेटफ़ॉर्म में लॉगिन प्रक्रिया शुरू करता है। यह क्लाउड-आधारित सुविधाओं के लिए आवश्यक है।

लॉगिन करने के बाद, आपकी सत्र जानकारी स्थानीय रूप से सहेजी जाती है।


                            openclaw update

OpenClaw CLI टूल को नवीनतम संस्करण में अपडेट करता है। बग फिक्स और नई सुविधाएँ प्राप्त करें।

नियमित रूप से अपडेट करने से आपको सर्वोत्तम प्रदर्शन और सुरक्षा मिलती है।

वेब पेज स्क्रैपिंग


                            openclaw scrape url  --output

दिए गए URL से पूरे वेब पेज को स्क्रैप करता है और आउटपुट को निर्दिष्ट फ़ाइल में सहेजता है।

आउटपुट फ़ाइल का एक्सटेंशन (जैसे .html, .txt) OpenClaw को प्रारूप निर्धारित करने में मदद करेगा।


                            openclaw scrape selector  --url  --format json

एक विशिष्ट CSS सेलेक्टर का उपयोग करके URL से डेटा निकालता है और इसे JSON प्रारूप में आउटपुट करता है।

सटीक डेटा निष्कर्षण के लिए CSS सेलेक्टर को ध्यान से चुनें। ब्राउज़र डेवलपर टूल्स का उपयोग करें।


                            openclaw scrape table --url  --index  --header

वेब पेज पर एक विशिष्ट HTML तालिका को स्क्रैप करता है। `--index` 0-आधारित है। `--header` शीर्षलेख पंक्तियों को शामिल करता है।

यदि पेज पर कई टेबल हैं, तो सही टेबल इंडेक्स का पता लगाएं।


                            openclaw scrape links --url  --depth  --follow-domain

एक URL से शुरू होकर, निर्दिष्ट गहराई तक लिंक को खोजता और स्क्रैप करता है। `--follow-domain` केवल एक ही डोमेन के भीतर रहता है।

बड़े पैमाने पर क्रॉलिंग के लिए उपयुक्त, लेकिन सर्वर पर अधिक भार से बचने के लिए गहराई को सीमित करें।

डेटा प्रोसेसिंग और फ़िल्टरिंग


                            openclaw process filter --input  --query "price > 100 AND category = 'electronics'"

इनपुट फ़ाइल से डेटा को एक विशिष्ट क्वेरी के आधार पर फ़िल्टर करता है।

जटिल फ़िल्टरिंग के लिए SQL-जैसे सिंटैक्स या JSONPath का उपयोग करें।


                            openclaw process extract --input  --fields "title,url,price" --output clean_data.json

इनपुट फ़ाइल से विशिष्ट फ़ील्ड (कॉलम) निकालता है और उन्हें एक नई फ़ाइल में सहेजता है।

केवल उन फ़ील्ड्स को रखें जिनकी आपको आवश्यकता है ताकि डेटा को सुव्यवस्थित किया जा सके।


                            openclaw process transform --input  --script  --lang js

इनपुट डेटा पर कस्टम डेटा ट्रांसफ़ॉर्मेशन स्क्रिप्ट (जैसे JavaScript) लागू करता है।

डेटा को साफ़ करने, पुनर्गठन करने या नए फ़ील्ड्स बनाने के लिए स्क्रिप्ट का उपयोग करें।


                            openclaw process deduplicate --input  --field "url" --output unique_records.csv

एक निर्दिष्ट फ़ील्ड (जैसे URL) के आधार पर इनपुट डेटा से डुप्लिकेट रिकॉर्ड हटाता है।

यह सुनिश्चित करने के लिए कि आपको अद्वितीय डेटा मिले, क्रॉलिंग के बाद अक्सर डिडुप्लीकेट करें।

आउटपुट और एक्सपोर्ट


                            openclaw export csv --input  --output  --delimiter ","

JSON या अन्य संरचित डेटा को CSV प्रारूप में निर्यात करता है। आप सीमांकक निर्दिष्ट कर सकते हैं।

विभिन्न स्प्रेडशीट सॉफ़्टवेयर के साथ संगतता के लिए सही सीमांकक का उपयोग करें।


                            openclaw export json --input  --output  --pretty

CSV या अन्य संरचित डेटा को सुंदर (इंडेंटेड) JSON प्रारूप में निर्यात करता है।

मानव-पठनीयता के लिए `--pretty` फ़्लैग का उपयोग करें, लेकिन स्वचालित प्रसंस्करण के लिए इसे छोड़ दें।


                            openclaw export db --input  --type postgres --connection "host=... user=..."

स्क्रैप किए गए डेटा को सीधे एक डेटाबेस (जैसे PostgreSQL, MySQL) में निर्यात करता है।

डेटाबेस स्कीमा और कनेक्शन स्ट्रिंग को ध्यान से कॉन्फ़िगर करें।


                            openclaw output view --input  --limit 10 --format table

कंसोल में संरचित डेटा का पूर्वावलोकन करता है, वैकल्पिक रूप से एक तालिका प्रारूप में।

स्क्रैपिंग के बाद डेटा की त्वरित जांच के लिए बहुत उपयोगी।

AI-पावर्ड एक्सट्रैक्शन


                            openclaw ai extract --url  --schema

AI का उपयोग करके एक URL से संरचित डेटा निकालता है, एक पूर्व-परिभाषित स्कीमा का पालन करता है।

AI-आधारित निष्कर्षण के लिए एक अच्छी तरह से परिभाषित स्कीमा महत्वपूर्ण है।


                            openclaw ai summarize --text  --lang "hi" --length short

AI का उपयोग करके लंबे टेक्स्ट को संक्षेप में प्रस्तुत करता है। सारांश की भाषा और लंबाई निर्दिष्ट करें।

उत्पाद विवरण या लेखों का त्वरित अवलोकन प्राप्त करने के लिए उपयोगी।


                            openclaw ai classify --input  --field "description" --model "sentiment"

AI मॉडल का उपयोग करके डेटासेट में एक फ़ील्ड को वर्गीकृत करता है (उदाहरण के लिए, भावना विश्लेषण)।

ग्राहक समीक्षाओं या टिप्पणियों को स्वचालित रूप से वर्गीकृत करने के लिए लागू करें।


                            openclaw ai generate_schema --url  --output

एक URL का विश्लेषण करके AI-आधारित निष्कर्षण के लिए एक सुझाया गया स्कीमा उत्पन्न करता है।

मैन्युअल स्कीमा निर्माण में लगने वाले समय को बचाने के लिए इसका उपयोग करें, फिर आवश्यकतानुसार परिष्कृत करें।

एडवांस्ड वर्कफ़्लो और शेड्यूलिंग


                            openclaw workflow run

एक YAML-आधारित वर्कफ़्लो फ़ाइल में परिभाषित कमांड्स और चरणों के अनुक्रम को निष्पादित करता है।

जटिल स्क्रैपिंग और प्रोसेसिंग पाइपलाइन को स्वचालित करने के लिए वर्कफ़्लो बनाएं।


                            openclaw schedule add --name "daily_products" --cmd "openclaw scrape ..." --cron "0 0 * * *"

एक कमांड को एक विशिष्ट Cron एक्सप्रेशन का उपयोग करके चलाने के लिए शेड्यूल करता है।

नियमित डेटा अपडेट के लिए दैनिक या साप्ताहिक स्क्रैप नौकरियों को शेड्यूल करें।


                            openclaw proxy config set --list  --rotate-interval 60s

प्रॉक्सी सर्वर की एक सूची कॉन्फ़िगर करता है और उन्हें निर्दिष्ट अंतराल पर घुमाता है।

IP ब्लॉकिंग से बचने और बड़े पैमाने पर स्क्रैपिंग के लिए प्रॉक्सी आवश्यक हैं।


                            openclaw monitor status

वर्तमान में चल रहे और निर्धारित OpenClaw कार्यों की स्थिति प्रदर्शित करता है।

अपने डेटा एक्सट्रैक्शन ऑपरेशंस की प्रगति और स्वास्थ्य पर नज़र रखें।

OpenClaw CLI चीट शीट: वेब स्क्रैपिंग और डेटा एक्सट्रैक्शन

प्रारंभिक सेटअप और कॉन्फ़िगरेशन

वेब पेज स्क्रैपिंग

डेटा प्रोसेसिंग और फ़िल्टरिंग

आउटपुट और एक्सपोर्ट

AI-पावर्ड एक्सट्रैक्शन

एडवांस्ड वर्कफ़्लो और शेड्यूलिंग

अक्सर पूछे जाने वाले प्रश्न (FAQs)

OpenClaw क्या है?

मैं OpenClaw कैसे स्थापित करूं?

क्या OpenClaw JavaScript-रेंडर किए गए पेजों को संभाल सकता है?

क्या OpenClaw के साथ प्रॉक्सी का उपयोग करना संभव है?

AI-पावर्ड एक्सट्रैक्शन कैसे काम करता है?