पायथन् crawler_developdoc इत्यस्य अनुरोधं करोति

पायथन् क्रॉलरं अनुरोधयति

2024-07-12

पायथन् इत्यस्य अनुरोधपुस्तकालयः HTTP अनुरोधं प्रेषयितुं प्रतिक्रियाणां संसाधनं च कर्तुं शक्तिशालीं सुलभं च HTTP पुस्तकालयम् अस्ति । पायथन् इत्यस्मिन् लोकप्रियतमेषु जालक्रॉलर-रूपरेखासु अन्यतमम् अस्ति तथा च जालपुटेभ्यः, क्रॉल-जालस्थलेभ्यः, एपिआइ-आह्वानं कर्तुं च व्यापकरूपेण उपयुज्यते ।

अनुरोधपुस्तकालयस्य उपयोगेन भवान् GET, POST, PUT, DELETE इत्यादीनि विविधानि HTTP अनुरोधाः सहजतया प्रेषयितुं शक्नोति । भवान् HTTP अनुरोधवस्तुं निर्मातुम् अर्हति, अनुरोधशीर्षकाणि, अनुरोधशरीरम्, अन्ये च मापदण्डान् सेट् कर्तुं शक्नोति, ततः अनुरोधं प्रेषयित्वा प्रतिक्रियां प्राप्तुं शक्नोति । अनुरोधपुस्तकालयः प्रतिक्रियाणां संसाधनार्थं बहवः सुविधाजनकाः पद्धतयः प्रदाति, यथा प्रतिक्रियासामग्रीप्राप्तिः, JSON पार्सिंग्, HTML पार्सिंग् इत्यादीनि ।

यदि स्थानीयपायथन् वातावरणे अनुरोधाः संस्थापिताः न सन्ति तर्हि भवान् आदेशप्रॉम्प्ट् विण्डो मध्ये आदेशं प्रविष्टुं शक्नोति

pip install requests

अनुरोधमॉड्यूलं संस्थापयन्तु

वयं इच्छानुसारं जालपुटं उद्घाटयितुं शक्नुमः, F12->"Ctrl+R" इत्यनेन ताजगीं कर्तुं, नामस्थं द्रव्यं द्विवारं क्लिक् कुर्वन्तु

User-Agent तथा Cookie इति द्रष्टुं शक्नुवन्ति

निम्नलिखितम् केचन सामान्यतया प्रयुक्ताः अनुरोधपुस्तकालयस्य कार्याणि उपयोगश्च सन्ति:

GET अनुरोधं प्रेषयन्तु:
```
response = requests.get(url)
```
POST अनुरोधं प्रेषयन्तु:
```
response = requests.post(url, data=payload)
```

अनुरोधशीर्षकाणि सेट् कुर्वन्तु:


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

URL मापदण्डान् पारयन्तु:


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

सञ्चिकां प्रेषयन्तु : १.


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

प्रतिक्रियासामग्री प्राप्नुवन्तु : १.
```
print(response.text)
```
JSON प्रतिक्रियायाः विश्लेषणं कुर्वन्तु:
```
json_data = response.json()
```
HTML प्रतिक्रियायाः विश्लेषणं कुर्वन्तु:
```
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
```

अपवादानाम् संचालनम् : १.


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

उपरिष्टाद् अनुरोधपुस्तकालयस्य कार्याणां लघुभागः एव अस्ति, एतत् अन्ये बहवः उन्नतकार्यं विकल्पाः च प्रदाति, यथा सत्रप्रबन्धनम्, प्रमाणीकरणं, प्रॉक्सीसेटिंग्स् इत्यादयः, ये भवन्तं जालक्रॉलिंग्, एपिआइ-आह्वानं च सुलभतया कर्तुं साहाय्यं कर्तुं शक्नुवन्ति

सम्पूर्ण अनुरोध कार्य दिनचर्या : १.


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

प्रौद्योगिकी साझेदारी

पायथन् क्रॉलरं अनुरोधयति

व्यक्तिगत प्रोफाइल

मम सम्पर्कसूचना