Python запрашивает Crawler

Поисковый робот запросов Python

2024-07-12

Библиотека запросов Python — это мощная и простая в использовании библиотека HTTP для отправки HTTP-запросов и обработки ответов. Это одна из самых популярных платформ веб-сканирования на Python, которая широко используется для извлечения данных с веб-страниц, сканирования веб-сайтов и выполнения вызовов API.

Используя библиотеку запросов, вы можете легко отправлять различные HTTP-запросы, включая GET, POST, PUT, DELETE и т. д. Вы можете создать объект HTTP-запроса, установить заголовки запроса, тело запроса и другие параметры, а затем отправить запрос и получить ответ. Библиотека запросов предоставляет множество удобных методов для обработки ответов, включая получение содержимого ответа, анализ JSON, анализ HTML и т. д.

Если запросы не установлены в локальной среде Python, вы можете ввести команду в окне командной строки.

pip install requests

Установить модуль запросов

Мы можем открыть веб-страницу по своему желанию: F12->"Ctrl+R" для обновления, дважды щелкните элемент в имени.

Вы можете увидеть User-Agent и Cookie.

Ниже приведены некоторые часто используемые функции библиотеки запросов и их использование:

Отправьте GET-запрос:
```
response = requests.get(url)
```

Отправить POST-запрос:

response = requests.post(url, data=payload)

Установите заголовки запроса:


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

Передайте параметры URL:


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

Отправить файл:


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

Получите содержимое ответа:
```
print(response.text)
```
Разберите ответ JSON:
```
json_data = response.json()
```

Разберите HTML-ответ:


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

Обработка исключений:


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

Вышеупомянутое — это лишь малая часть функций библиотеки запросов. Она также предоставляет множество других расширенных функций и опций, таких как управление сеансами, аутентификация, настройки прокси и т. д., которые могут помочь вам легко выполнять сканирование веб-страниц и вызовы API.

Полная процедура функции запроса:


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

Обмен технологиями

Поисковый робот запросов Python

Личный профиль

моя контактная информация