अंतिम संदर्भ

OpenClaw CLI चीट शीट: वेब स्क्रैपिंग और डेटा एक्सट्रैक्शन

OpenClaw के साथ अपनी डेटा एक्सट्रैक्शन प्रक्रियाओं को शक्ति दें। यह हिंदी गाइड आपको सबसे शक्तिशाली कमांड्स में महारत हासिल करने में मदद करेगा।

प्रारंभिक सेटअप और कॉन्फ़िगरेशन

openclaw init
Copied!

एक नया OpenClaw प्रोजेक्ट आरंभ करता है। यह आवश्यक फ़ाइलों और डायरेक्ट्रियों को सेट करता है।

अपने प्रोजेक्ट को व्यवस्थित रखने के लिए हमेशा एक नए प्रोजेक्ट के साथ शुरुआत करें।

openclaw config set api_key
Copied!

OpenClaw सेवा के लिए अपनी API कुंजी कॉन्फ़िगर करता है। यह प्रमाणीकरण के लिए आवश्यक है।

अपनी API कुंजी को सुरक्षित रखें और इसे सार्वजनिक रूप से साझा न करें।

openclaw auth login
Copied!

OpenClaw प्लेटफ़ॉर्म में लॉगिन प्रक्रिया शुरू करता है। यह क्लाउड-आधारित सुविधाओं के लिए आवश्यक है।

लॉगिन करने के बाद, आपकी सत्र जानकारी स्थानीय रूप से सहेजी जाती है।

openclaw update
Copied!

OpenClaw CLI टूल को नवीनतम संस्करण में अपडेट करता है। बग फिक्स और नई सुविधाएँ प्राप्त करें।

नियमित रूप से अपडेट करने से आपको सर्वोत्तम प्रदर्शन और सुरक्षा मिलती है।

वेब पेज स्क्रैपिंग

openclaw scrape url --output
Copied!

दिए गए URL से पूरे वेब पेज को स्क्रैप करता है और आउटपुट को निर्दिष्ट फ़ाइल में सहेजता है।

आउटपुट फ़ाइल का एक्सटेंशन (जैसे .html, .txt) OpenClaw को प्रारूप निर्धारित करने में मदद करेगा।

openclaw scrape selector --url --format json
Copied!

एक विशिष्ट CSS सेलेक्टर का उपयोग करके URL से डेटा निकालता है और इसे JSON प्रारूप में आउटपुट करता है।

सटीक डेटा निष्कर्षण के लिए CSS सेलेक्टर को ध्यान से चुनें। ब्राउज़र डेवलपर टूल्स का उपयोग करें।

openclaw scrape table --url --index --header
Copied!

वेब पेज पर एक विशिष्ट HTML तालिका को स्क्रैप करता है। `--index` 0-आधारित है। `--header` शीर्षलेख पंक्तियों को शामिल करता है।

यदि पेज पर कई टेबल हैं, तो सही टेबल इंडेक्स का पता लगाएं।

openclaw scrape links --url --depth --follow-domain
Copied!

एक URL से शुरू होकर, निर्दिष्ट गहराई तक लिंक को खोजता और स्क्रैप करता है। `--follow-domain` केवल एक ही डोमेन के भीतर रहता है।

बड़े पैमाने पर क्रॉलिंग के लिए उपयुक्त, लेकिन सर्वर पर अधिक भार से बचने के लिए गहराई को सीमित करें।

डेटा प्रोसेसिंग और फ़िल्टरिंग

openclaw process filter --input --query "price > 100 AND category = 'electronics'"
Copied!

इनपुट फ़ाइल से डेटा को एक विशिष्ट क्वेरी के आधार पर फ़िल्टर करता है।

जटिल फ़िल्टरिंग के लिए SQL-जैसे सिंटैक्स या JSONPath का उपयोग करें।

openclaw process extract --input --fields "title,url,price" --output clean_data.json
Copied!

इनपुट फ़ाइल से विशिष्ट फ़ील्ड (कॉलम) निकालता है और उन्हें एक नई फ़ाइल में सहेजता है।

केवल उन फ़ील्ड्स को रखें जिनकी आपको आवश्यकता है ताकि डेटा को सुव्यवस्थित किया जा सके।

openclaw process transform --input --script --lang js
Copied!

इनपुट डेटा पर कस्टम डेटा ट्रांसफ़ॉर्मेशन स्क्रिप्ट (जैसे JavaScript) लागू करता है।

डेटा को साफ़ करने, पुनर्गठन करने या नए फ़ील्ड्स बनाने के लिए स्क्रिप्ट का उपयोग करें।

openclaw process deduplicate --input --field "url" --output unique_records.csv
Copied!

एक निर्दिष्ट फ़ील्ड (जैसे URL) के आधार पर इनपुट डेटा से डुप्लिकेट रिकॉर्ड हटाता है।

यह सुनिश्चित करने के लिए कि आपको अद्वितीय डेटा मिले, क्रॉलिंग के बाद अक्सर डिडुप्लीकेट करें।

आउटपुट और एक्सपोर्ट

openclaw export csv --input --output --delimiter ","
Copied!

JSON या अन्य संरचित डेटा को CSV प्रारूप में निर्यात करता है। आप सीमांकक निर्दिष्ट कर सकते हैं।

विभिन्न स्प्रेडशीट सॉफ़्टवेयर के साथ संगतता के लिए सही सीमांकक का उपयोग करें।

openclaw export json --input --output --pretty
Copied!

CSV या अन्य संरचित डेटा को सुंदर (इंडेंटेड) JSON प्रारूप में निर्यात करता है।

मानव-पठनीयता के लिए `--pretty` फ़्लैग का उपयोग करें, लेकिन स्वचालित प्रसंस्करण के लिए इसे छोड़ दें।

openclaw export db --input --type postgres --connection "host=... user=..."
Copied!

स्क्रैप किए गए डेटा को सीधे एक डेटाबेस (जैसे PostgreSQL, MySQL) में निर्यात करता है।

डेटाबेस स्कीमा और कनेक्शन स्ट्रिंग को ध्यान से कॉन्फ़िगर करें।

openclaw output view --input --limit 10 --format table
Copied!

कंसोल में संरचित डेटा का पूर्वावलोकन करता है, वैकल्पिक रूप से एक तालिका प्रारूप में।

स्क्रैपिंग के बाद डेटा की त्वरित जांच के लिए बहुत उपयोगी।

AI-पावर्ड एक्सट्रैक्शन

openclaw ai extract --url --schema
Copied!

AI का उपयोग करके एक URL से संरचित डेटा निकालता है, एक पूर्व-परिभाषित स्कीमा का पालन करता है।

AI-आधारित निष्कर्षण के लिए एक अच्छी तरह से परिभाषित स्कीमा महत्वपूर्ण है।

openclaw ai summarize --text --lang "hi" --length short
Copied!

AI का उपयोग करके लंबे टेक्स्ट को संक्षेप में प्रस्तुत करता है। सारांश की भाषा और लंबाई निर्दिष्ट करें।

उत्पाद विवरण या लेखों का त्वरित अवलोकन प्राप्त करने के लिए उपयोगी।

openclaw ai classify --input --field "description" --model "sentiment"
Copied!

AI मॉडल का उपयोग करके डेटासेट में एक फ़ील्ड को वर्गीकृत करता है (उदाहरण के लिए, भावना विश्लेषण)।

ग्राहक समीक्षाओं या टिप्पणियों को स्वचालित रूप से वर्गीकृत करने के लिए लागू करें।

openclaw ai generate_schema --url --output
Copied!

एक URL का विश्लेषण करके AI-आधारित निष्कर्षण के लिए एक सुझाया गया स्कीमा उत्पन्न करता है।

मैन्युअल स्कीमा निर्माण में लगने वाले समय को बचाने के लिए इसका उपयोग करें, फिर आवश्यकतानुसार परिष्कृत करें।

एडवांस्ड वर्कफ़्लो और शेड्यूलिंग

openclaw workflow run
Copied!

एक YAML-आधारित वर्कफ़्लो फ़ाइल में परिभाषित कमांड्स और चरणों के अनुक्रम को निष्पादित करता है।

जटिल स्क्रैपिंग और प्रोसेसिंग पाइपलाइन को स्वचालित करने के लिए वर्कफ़्लो बनाएं।

openclaw schedule add --name "daily_products" --cmd "openclaw scrape ..." --cron "0 0 * * *"
Copied!

एक कमांड को एक विशिष्ट Cron एक्सप्रेशन का उपयोग करके चलाने के लिए शेड्यूल करता है।

नियमित डेटा अपडेट के लिए दैनिक या साप्ताहिक स्क्रैप नौकरियों को शेड्यूल करें।

openclaw proxy config set --list --rotate-interval 60s
Copied!

प्रॉक्सी सर्वर की एक सूची कॉन्फ़िगर करता है और उन्हें निर्दिष्ट अंतराल पर घुमाता है।

IP ब्लॉकिंग से बचने और बड़े पैमाने पर स्क्रैपिंग के लिए प्रॉक्सी आवश्यक हैं।

openclaw monitor status
Copied!

वर्तमान में चल रहे और निर्धारित OpenClaw कार्यों की स्थिति प्रदर्शित करता है।

अपने डेटा एक्सट्रैक्शन ऑपरेशंस की प्रगति और स्वास्थ्य पर नज़र रखें।

अक्सर पूछे जाने वाले प्रश्न (FAQs)

OpenClaw क्या है?

OpenClaw वेब स्क्रैपिंग और डेटा एक्सट्रैक्शन के लिए एक उन्नत AI-पावर्ड कमांड-लाइन इंटरफेस (CLI) टूल है, जो दक्षता और सटीकता के लिए डिज़ाइन किया गया है।

मैं OpenClaw कैसे स्थापित करूं?

OpenClaw को स्थापित करने के लिए, आप आमतौर पर `pip install openclaw` का उपयोग कर सकते हैं या आधिकारिक दस्तावेज़ में दिए गए प्लेटफ़ॉर्म-विशिष्ट इंस्टॉलर निर्देशों का पालन कर सकते हैं।

क्या OpenClaw JavaScript-रेंडर किए गए पेजों को संभाल सकता है?

हाँ, OpenClaw आधुनिक वेब पेजों से डेटा निकालने के लिए JavaScript-रेंडरिंग क्षमताओं का समर्थन करता है, यह सुनिश्चित करता है कि आप गतिशील सामग्री तक पहुँच सकें।

क्या OpenClaw के साथ प्रॉक्सी का उपयोग करना संभव है?

हाँ, OpenClaw प्रॉक्सी कॉन्फ़िगरेशन का समर्थन करता है। आप IP ब्लॉकिंग से बचने, दर सीमाओं का प्रबंधन करने और गुमनामी बनाए रखने के लिए प्रॉक्सी की सूची सेट कर सकते हैं।

AI-पावर्ड एक्सट्रैक्शन कैसे काम करता है?

AI-पावर्ड एक्सट्रैक्शन वेब पेज की संरचना और सामग्री का विश्लेषण करने के लिए मशीन लर्निंग मॉडल का उपयोग करता है, जिससे आप बिना विशिष्ट CSS सेलेक्टर के संरचित डेटा को अधिक सटीक रूप से निकाल सकते हैं।