Solicitações Python crawler

Rastreador de solicitações Python

2024-07-12

A biblioteca de solicitações do Python é uma biblioteca HTTP poderosa e fácil de usar para enviar solicitações HTTP e processar respostas. É uma das estruturas de rastreador da web mais populares em Python e é amplamente usada para extrair dados de páginas da web, rastrear sites e fazer chamadas de API.

Usando a biblioteca de solicitações, você pode enviar facilmente várias solicitações HTTP, incluindo GET, POST, PUT, DELETE, etc. Você pode criar um objeto de solicitação HTTP, definir os cabeçalhos da solicitação, o corpo da solicitação e outros parâmetros e, em seguida, enviar a solicitação e obter a resposta. A biblioteca de solicitações fornece muitos métodos convenientes para processar respostas, incluindo obtenção de conteúdo de resposta, análise de JSON, análise de HTML, etc.

Se as solicitações não estiverem instaladas no ambiente Python local, você poderá inserir o comando na janela do prompt de comando

pip install requests

Instalar módulo de solicitações

Podemos abrir uma página web à vontade, F12->"Ctrl+R" para atualizar, clique duas vezes no item do nome

Você pode ver o User-Agent e o Cookie

A seguir estão algumas funções e uso da biblioteca de solicitações comumente usadas:

Envie uma solicitação GET:
```
response = requests.get(url)
```

Enviar solicitação POST:

response = requests.post(url, data=payload)

Defina cabeçalhos de solicitação:


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Passe parâmetros de URL:


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

Enviar arquivo:


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

Obtenha o conteúdo da resposta:
```
print(response.text)
```
Analise a resposta JSON:
```
json_data = response.json()
```

Analise a resposta HTML:


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Tratamento de exceções:


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

O texto acima é apenas uma pequena parte das funções da biblioteca de solicitações. Ela também fornece muitas outras funções e opções avançadas, como gerenciamento de sessão, autenticação, configurações de proxy, etc., que podem ajudá-lo a fazer rastreadores da web e chamadas de API facilmente.

Rotina completa da função de solicitação:


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

Compartilhamento de tecnologia

Rastreador de solicitações Python

Perfil pessoal

minhas informações de contato