Requêtes Python crawler

Robot d'exploration de requêtes Python

2024-07-12

La bibliothèque de requêtes de Python est une bibliothèque HTTP puissante et facile à utiliser pour envoyer des requêtes HTTP et traiter les réponses. Il s'agit de l'un des frameworks d'exploration de sites Web les plus populaires en Python et il est largement utilisé pour extraire des données de pages Web, explorer des sites Web et effectuer des appels d'API.

À l'aide de la bibliothèque de requêtes, vous pouvez facilement envoyer diverses requêtes HTTP, notamment GET, POST, PUT, DELETE, etc. Vous pouvez créer un objet de requête HTTP, définir les en-têtes de requête, le corps de la requête et d'autres paramètres, puis envoyer la requête et obtenir la réponse. La bibliothèque de requêtes fournit de nombreuses méthodes pratiques pour traiter les réponses, notamment l'obtention du contenu de la réponse, l'analyse du JSON, l'analyse du HTML, etc.

Si les requêtes ne sont pas installées dans l'environnement Python local, vous pouvez saisir la commande dans la fenêtre d'invite de commande

pip install requests

Module de demandes d'installation

On peut ouvrir une page web à volonté, F12->"Ctrl+R" pour actualiser, double-cliquez sur l'élément dans le nom

Vous pouvez voir l'agent utilisateur et le cookie

Voici quelques fonctions et utilisations de la bibliothèque de requêtes couramment utilisées :

Envoyez une requête GET :
```
response = requests.get(url)
```

Envoyer une requête POST :

response = requests.post(url, data=payload)

Définir les en-têtes de requête :


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Transmettre les paramètres d'URL :


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

Envoyer le fichier:


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

Obtenez le contenu de la réponse :
```
print(response.text)
```
Analysez la réponse JSON :
```
json_data = response.json()
```

Analysez la réponse HTML :


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Gestion des exceptions :


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

Ce qui précède n'est qu'une petite partie des fonctions de la bibliothèque de requêtes. Elle fournit également de nombreuses autres fonctions et options avancées, telles que la gestion de session, l'authentification, les paramètres de proxy, etc., qui peuvent vous aider à effectuer facilement une exploration Web et des appels d'API.

Routine de fonction de requête complète :


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

Partage de technologie

Robot d'exploration de requêtes Python

Profil personnel

mes coordonnées