Python solicita rastreador

2024-07-12

La biblioteca de solicitudes de Python es una biblioteca HTTP potente y fácil de usar para enviar solicitudes HTTP y procesar respuestas. Es uno de los marcos de rastreo web más populares en Python y se usa ampliamente para extraer datos de páginas web, rastrear sitios web y realizar llamadas API.

Con la biblioteca de solicitudes, puede enviar fácilmente varias solicitudes HTTP, incluidas GET, POST, PUT, DELETE, etc. Puede crear un objeto de solicitud HTTP, configurar los encabezados de la solicitud, el cuerpo de la solicitud y otros parámetros, luego enviar la solicitud y obtener la respuesta. La biblioteca de solicitudes proporciona muchos métodos convenientes para procesar respuestas, incluida la obtención del contenido de la respuesta, el análisis de JSON, el análisis de HTML, etc.

Si las solicitudes no están instaladas en el entorno local de Python, puede ingresar el comando en la ventana del símbolo del sistema

pip install requests

Instalar módulo de solicitudes

Podemos abrir una página web a voluntad, F12->"Ctrl+R" para actualizar, hacer doble clic en el elemento en el nombre

Puedes ver User-Agent y Cookie

Las siguientes son algunas funciones y usos de la biblioteca de solicitudes de uso común:

Enviar una solicitud GET:
```
response = requests.get(url)
```

Enviar solicitud POST:

response = requests.post(url, data=payload)

Establecer encabezados de solicitud:


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Pasar parámetros de URL:


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

Enviar archivo:


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

Obtenga el contenido de la respuesta:
```
print(response.text)
```
Analice la respuesta JSON:
```
json_data = response.json()
```

Analiza la respuesta HTML:


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Manejo de excepciones:


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

Lo anterior es solo una pequeña parte de las funciones de la biblioteca de solicitudes. También proporciona muchas otras funciones y opciones avanzadas, como administración de sesiones, autenticación, configuración de proxy, etc., que pueden ayudarlo a realizar fácilmente el rastreo web y las llamadas API.

Rutina completa de la función de solicitud:


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

Compartir tecnología

Python solicita rastreador

Perfil personal

Mi informacion de contacto