प्रौद्योगिकी साझेदारी

स्क्रैपी क्रॉलर् लिखति

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scrapy इति वेबसाइट्-दत्तांशं क्रॉल कृत्वा संरचितसूचनाः निष्कासयितुं पायथन्-रूपरेखा अस्ति

1. स्क्रैपी इत्यस्य परिचयः

1.इञ्जिनम्
– Scrapy’s engine इति दत्तांशप्रवाहस्य नियन्त्रणस्य, घटनानां प्रवर्तनस्य च मूलं भवति । एतत् स्पाइडर इत्यनेन प्रेषितानां अनुरोधानाम्, प्राप्तानां प्रतिक्रियाणां च प्रबन्धनं करोति, तथैव स्पाइडर इत्यनेन उत्पन्नानां Items इत्यस्य संसाधनं च करोति । इञ्जिनं स्क्रेपी इत्यस्य कार्यस्य चालकशक्तिः अस्ति ।

2.निर्माता
– इञ्जिनद्वारा प्रेषितानि अनुरोधाः प्राप्य कतिपयानां नीतीनां (यथा प्राथमिकता, गभीरता इत्यादीनां) अनुसारं पङ्क्तिं स्थापयितुं समयनिर्धारकः उत्तरदायी भवति यदा इञ्जिनस्य नूतनस्य अनुरोधस्य आवश्यकता भवति तदा शेड्यूलरः पङ्क्तौ अनुरोधं गृहीत्वा इञ्जिनं प्रति प्रत्यागच्छति । एतत् अनुरोधानाम् क्रमेण प्रक्रियां सुनिश्चितं करोति ।

3. डाउनलोडरः
– Scrapy इञ्जिन् द्वारा प्रेषितानां अनुरोधानाम् आधारेण जालसामग्रीम् अवतरणं कर्तुं डाउनलोडरस्य उत्तरदायित्वं भवति । एतत् वेबसाइट् सर्वरेण सह संवादं कर्तुं HTTP प्रोटोकॉलस्य उपयोगं करोति तथा च प्रतिक्रियारूपेण डाउनलोड् कृतं जालपुटसामग्रीम् Scrapy इञ्जिन् प्रति प्रत्यागच्छति । जालपुटदत्तांशं प्राप्तुं Scrapy इत्यस्य मूलघटकः डाउनलोडरः अस्ति ।

4.मकड़ाः
– स्पाइडर्स् स्क्रैपी इत्यस्मिन् घटकाः सन्ति येषां उपयोगः क्रॉलिंग् लॉजिक् परिभाषितुं जालपुटस्य सामग्रीं विश्लेषयितुं च भवति ।ते परिभाषितनियमानाम् आधारेण प्रारम्भिकानुरोधं जनयन्ति तथा च आवश्यकदत्तांशं (Item) निष्कासयितुं डाउनलोडरद्वारा प्रत्यागतं प्रतिक्रियां संसाधयन्ति अथवा अग्रे क्रॉलिंग् कृते नूतनं अनुरोधं (Request) जनयन्ति

5.Item पाइपलाइन
– आइटम पाइपलाइन्स् स्पाइडर द्वारा निष्कासितानां वस्तूनाम् संसाधनस्य उत्तरदायी भवन्ति। ते दत्तांशस्य शोधनं, दत्तांशस्य अखण्डतायाः सत्यापनम्, दत्तांशकोशेषु वा सञ्चिकासु वा दत्तांशस्य संग्रहणं इत्यादीनि विविधानि कार्याणि कर्तुं शक्नुवन्ति । एकाधिकं Pipelines परिभाषयित्वा, भिन्न-भिन्न-आवश्यकतानां पूर्तये दत्तांशं लचीलतया संसाधितुं शक्यते ।

6. डाउनलोडर मिडिलवेयर्स
– Downloader middleware Scrapy engine and downloader इत्येतयोः मध्ये स्थितं भवति, तस्य उपयोगः अनुरोधानाम् प्रतिक्रियाणां च निबन्धनार्थं भवति । ते अनुरोधं (यथा अनुरोधशीर्षकाणि योजयितुं, प्रॉक्सी सेट् करणं इत्यादीनि) अथवा प्रतिक्रियां (यथा संपीडनप्रक्रियाकरणं, पुनर्निर्देशनप्रक्रियाकरणम् इत्यादीनि) परिवर्तयितुं शक्नुवन्ति, तस्मात् Scrapy वेबसाइट् इत्यनेन सह कथं अन्तरक्रियां करोति इति नियन्त्रयितुं शक्नुवन्ति Scrapy इत्यस्य कार्यक्षमतायाः विस्तारार्थं मिडिलवेयरः महत्त्वपूर्णं तन्त्रम् अस्ति ।

7. स्पाइडर मिडिलवेयर्स
– Spider middleware Scrapy engine and Spiders इत्येतयोः मध्ये स्थितं भवति तथा च Spider इत्यस्य input (i.e. response) and output (i.e. Item and new requests) च संसाधितुं उपयुज्यते ते प्रतिक्रियाः परिवर्तयितुं वा परित्यक्तुं वा, अपवादं नियन्त्रयितुं, मकरेण उत्पन्नवस्तूनि अनुरोधं च परिवर्तयितुं वा परित्यक्तुं वा शक्नुवन्ति । स्पाइडर मिडलवेयर स्पाइडर निष्पादनस्य समये कस्टम् फंक्शन्स् सम्मिलितुं क्षमता प्रदाति ।

प्रत्येकस्य घटकस्य मध्ये दत्तांशप्रवाहः चित्रे दर्शितः अस्ति :
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

  • प्रारम्भिक URL तः आरभ्य, Scheduler तत् Downloader इत्यस्मै डाउनलोड् कर्तुं समर्पयिष्यति
  • डाउनलोड् कृत्वा विश्लेषणार्थं स्पाइडर इत्यस्मै समर्पितं भविष्यति ।
  • स्पाइडर इत्यनेन विश्लेषिताः परिणामाः द्वौ प्रकारौ स्तः- १.
  • एकं लिङ्क् अस्ति येषां अधिकं क्रॉल करणीयम्, यथा "अग्रे पृष्ठम्" लिङ्क्, ये पुनः Scheduler -इत्यत्र प्रसारिताः भविष्यन्ति;
  • अन्यः दत्तांशः यस्य रक्षणं करणीयम्, यः उत्तर-प्रक्रियाकरणाय (विस्तृतविश्लेषणं, छाननं, भण्डारणं इत्यादि) Item Pipeline -इत्यत्र प्रेष्यते ।

2. स्क्रैपी संस्थापयन्तु

pip install scrapy