प्रौद्योगिकी साझेदारी

पायथन् क्रॉलरं अनुरोधयति

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

पायथन् इत्यस्य अनुरोधपुस्तकालयः HTTP अनुरोधं प्रेषयितुं प्रतिक्रियाणां संसाधनं च कर्तुं शक्तिशालीं सुलभं च HTTP पुस्तकालयम् अस्ति । पायथन् इत्यस्मिन् लोकप्रियतमेषु जालक्रॉलर-रूपरेखासु अन्यतमम् अस्ति तथा च जालपुटेभ्यः, क्रॉल-जालस्थलेभ्यः, एपिआइ-आह्वानं कर्तुं च व्यापकरूपेण उपयुज्यते ।

अनुरोधपुस्तकालयस्य उपयोगेन भवान् GET, POST, PUT, DELETE इत्यादीनि विविधानि HTTP अनुरोधाः सहजतया प्रेषयितुं शक्नोति । भवान् HTTP अनुरोधवस्तुं निर्मातुम् अर्हति, अनुरोधशीर्षकाणि, अनुरोधशरीरम्, अन्ये च मापदण्डान् सेट् कर्तुं शक्नोति, ततः अनुरोधं प्रेषयित्वा प्रतिक्रियां प्राप्तुं शक्नोति । अनुरोधपुस्तकालयः प्रतिक्रियाणां संसाधनार्थं बहवः सुविधाजनकाः पद्धतयः प्रदाति, यथा प्रतिक्रियासामग्रीप्राप्तिः, JSON पार्सिंग्, HTML पार्सिंग् इत्यादीनि ।

यदि स्थानीयपायथन् वातावरणे अनुरोधाः संस्थापिताः न सन्ति तर्हि भवान् आदेशप्रॉम्प्ट् विण्डो मध्ये आदेशं प्रविष्टुं शक्नोति

pip install requests

अनुरोधमॉड्यूलं संस्थापयन्तु

वयं इच्छानुसारं जालपुटं उद्घाटयितुं शक्नुमः, F12->"Ctrl+R" इत्यनेन ताजगीं कर्तुं, नामस्थं द्रव्यं द्विवारं क्लिक् कुर्वन्तु

User-Agent तथा ​​Cookie इति द्रष्टुं शक्नुवन्ति

निम्नलिखितम् केचन सामान्यतया प्रयुक्ताः अनुरोधपुस्तकालयस्य कार्याणि उपयोगश्च सन्ति:

  1. GET अनुरोधं प्रेषयन्तु:

    response = requests.get(url)
    

  2. POST अनुरोधं प्रेषयन्तु:

    response = requests.post(url, data=payload)
    

  3. अनुरोधशीर्षकाणि सेट् कुर्वन्तु:

    1. headers = {'User-Agent': 'Mozilla/5.0'}
    2. response = requests.get(url, headers=headers)

  4. URL मापदण्डान् पारयन्तु:

    1. params = {'key1': 'value1', 'key2': 'value2'}
    2. response = requests.get(url, params=params)

  5. सञ्चिकां प्रेषयन्तु : १.

    1. files = {'file': open('file.txt', 'rb')}
    2. response = requests.post(url, files=files)

  6. प्रतिक्रियासामग्री प्राप्नुवन्तु : १.

    print(response.text)
    

  7. JSON प्रतिक्रियायाः विश्लेषणं कुर्वन्तु:

    json_data = response.json()
    

  8. HTML प्रतिक्रियायाः विश्लेषणं कुर्वन्तु:

    1. from bs4 import BeautifulSoup
    2. soup = BeautifulSoup(response.text, 'html.parser')

  9. अपवादानाम् संचालनम् : १.

    1. try:
    2. response = requests.get(url)
    3. response.raise_for_status()
    4. except requests.HTTPError as e:
    5. print('HTTPError:', e)
    6. except requests.ConnectionError as e:
    7. print('ConnectionError:', e)
    8. except requests.Timeout as e:
    9. print('Timeout:', e)
    10. except requests.RequestException as e:
    11. print('RequestException:', e)

उपरिष्टाद् अनुरोधपुस्तकालयस्य कार्याणां लघुभागः एव अस्ति, एतत् अन्ये बहवः उन्नतकार्यं विकल्पाः च प्रदाति, यथा सत्रप्रबन्धनम्, प्रमाणीकरणं, प्रॉक्सीसेटिंग्स् इत्यादयः, ये भवन्तं जालक्रॉलिंग्, एपिआइ-आह्वानं च सुलभतया कर्तुं साहाय्यं कर्तुं शक्नुवन्ति

सम्पूर्ण अनुरोध कार्य दिनचर्या : १.

  1. import requests
  2. def get_html(url):
  3. '''
  4. 两个参数
  5. :param url:统一资源定位符,请求网址
  6. :param headers:请求头
  7. :return html 网页的源码
  8. :return sess 创建的会话
  9. '''
  10. # 请求头
  11. headers={'User-Agent': '复制了放这里'}
  12. # 创建Session, 并使用Session的get请求网页
  13. sess = requests.Session()
  14. response = sess.get(url=url,headers = headers)
  15. # 获取网页信息文本
  16. html = response.text
  17. return html, sess