Python richiede crawler

Python richiede il crawler

2024-07-12

La libreria delle richieste di Python è una libreria HTTP potente e facile da usare per l'invio di richieste HTTP e l'elaborazione delle risposte. È uno dei framework di web crawler più popolari in Python ed è ampiamente utilizzato per estrarre dati da pagine web, eseguire la scansione di siti web ed effettuare chiamate API.

Utilizzando la libreria delle richieste, puoi inviare facilmente varie richieste HTTP, tra cui GET, POST, PUT, DELETE, ecc. Puoi creare un oggetto di richiesta HTTP, impostare le intestazioni della richiesta, il corpo della richiesta e altri parametri, quindi inviare la richiesta e ottenere la risposta. La libreria delle richieste fornisce molti metodi utili per elaborare le risposte, tra cui l'ottenimento del contenuto della risposta, l'analisi di JSON, l'analisi di HTML, ecc.

Se le richieste non sono installate nell'ambiente Python locale, è possibile immettere il comando nella finestra del prompt dei comandi

pip install requests

Installa il modulo richieste

Possiamo aprire una pagina web a piacimento, F12->"Ctrl+R" per aggiornare, fare doppio clic sull'elemento nel nome

Puoi vedere User-Agent e Cookie

Di seguito sono riportate alcune funzioni e utilizzi della libreria delle richieste di uso comune:

Invia una richiesta GET:
```
response = requests.get(url)
```

Invia richiesta POST:

response = requests.post(url, data=payload)

Imposta le intestazioni della richiesta:


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Passa parametri URL:


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

Inviare file:


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

Ottieni il contenuto della risposta:
```
print(response.text)
```
Analizza la risposta JSON:
```
json_data = response.json()
```

Analizza la risposta HTML:


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Gestione delle eccezioni:


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

Quanto sopra è solo una piccola parte delle funzioni della libreria delle richieste. Fornisce anche molte altre funzioni e opzioni avanzate, come la gestione delle sessioni, l'autenticazione, le impostazioni proxy, ecc., che possono aiutarti a effettuare facilmente la scansione del web e le chiamate API.

Routine completa della funzione di richiesta:


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

Condivisione della tecnologia

Python richiede il crawler

Profilo personale

le mie informazioni di contatto