प्रौद्योगिकी साझेदारी

python crawler मूलभूतविषयाणां परिचयः

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

चरण

  1. जालसामग्री प्राप्नुवन्तु : १.

    1. http अनुरोधः

    2. python कृते पुस्तकालयस्य अनुरोधं करोति

  2. जालसामग्री विश्लेषणं कुर्वन्तु

    1. html जालपृष्ठसंरचना

    2. python कृते सुन्दरं Soup पुस्तकालयम्

  3. दत्तांशस्य संग्रहणं वा विश्लेषणं वा कुर्वन्तु

    1. दत्तांशकोशे संग्रहयन्तु

    2. एआइ विश्लेषणरूपेण आँकडा

    3. आलेखं परिवर्त्य प्रदर्शनं कुर्वन्तु

DDoS आक्रमणम्

सर्वरं प्रति विशाल-उच्च-आवृत्ति-अनुरोधं प्रेषयित्वा, जाल-पृष्ठ-संसाधनानाम् बृहत् परिमाणं उपभोक्तं भवति, अन्येषां उपयोक्तृणां अनुरोधाः प्रभाविताः भवन्ति ।

नियमानाम् अनुसरणं कुर्वन्तु

भवन्तः जालपुटस्य robots.txt सञ्चिकां द्रष्टुं शक्नुवन्ति यत् जालपुटमार्गानां परिधिं ज्ञातुं शक्नुवन्ति यत् क्रॉल कर्तुं शक्यते

HTTP (Hypertext Transfer Protocol अतिपाठ स्थानान्तरण प्रोटोकॉल)

  1. क्लायन्ट्-सर्वरयोः मध्ये अनुरोध-प्रतिसाद-प्रोटोकॉलः ।

  2. अनुरोधविधिः (सामान्यतया प्रयुक्तः) २.

    1. GET: दत्तांशं प्राप्नुत

    2. POST: दत्तांशं रचयन्तु

  3. अनुरोधः अत्र अन्तर्भवति : १.
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头