Python リクエストのクローラ

Python リクエストクローラー

2024-07-12

Python のリクエストライブラリは、HTTP リクエストを送信し、応答を処理するための強力で使いやすい HTTP ライブラリです。これは、Python で最も人気のある Web クローラーフレームワークの 1 つであり、Web ページからのデータの抽出、Web サイトのクロール、API 呼び出しの実行に広く使用されています。

リクエストライブラリを使用すると、GET、POST、PUT、DELETE などのさまざまな HTTP リクエストを簡単に送信できます。 HTTP リクエストオブジェクトを作成し、リクエストヘッダー、リクエスト本文、およびその他のパラメータを設定して、リクエストを送信して応答を取得できます。リクエストライブラリは、応答コンテンツの取得、JSON の解析、HTML の解析など、応答を処理するための便利なメソッドを多数提供します。

リクエストがローカルの Python 環境にインストールされていない場合は、コマンドプロンプトウィンドウにコマンドを入力できます。

pip install requests

インストール要求モジュール

自由にWebページを開くことができます。F12->「Ctrl+R」を押して更新し、名前内の項目をダブルクリックします。

ユーザーエージェントとCookieが表示されます

以下は、一般的に使用されるリクエストライブラリの関数と使用法です。

GET リクエストを送信します。
```
response = requests.get(url)
```

POST リクエストを送信します。

response = requests.post(url, data=payload)

リクエストヘッダーを設定します。


headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

URL パラメーターを渡します。


params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)

ファイルを送信：


files = {'file': open('file.txt', 'rb')}
response = requests.post(url, files=files)

応答内容を取得します。
```
print(response.text)
```
JSON 応答を解析します。
```
json_data = response.json()
```

HTML 応答を解析します。


from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

例外の処理:


try:
    response = requests.get(url)
    response.raise_for_status()
except requests.HTTPError as e:
    print('HTTPError:', e)
except requests.ConnectionError as e:
    print('ConnectionError:', e)
except requests.Timeout as e:
    print('Timeout:', e)
except requests.RequestException as e:
    print('RequestException:', e)

上記はリクエストライブラリの機能のほんの一部であり、セッション管理、認証、プロキシ設定など、Web クローリングや API 呼び出しを簡単に行うのに役立つ他の多くの高度な機能やオプションも提供します。

リクエスト関数ルーチンを完了します。


import requests
 
 
def get_html(url):
    '''
    两个参数
    :param url:统一资源定位符,请求网址
    :param headers:请求头
    :return html 网页的源码
    :return sess 创建的会话
    '''
    
     # 请求头
    headers={'User-Agent': '复制了放这里'}
    # 创建Session, 并使用Session的get请求网页
    sess = requests.Session()
    response = sess.get(url=url,headers = headers)
    # 获取网页信息文本
    html = response.text
 
    return html, sess

技術共有

Python リクエストクローラー

個人プロフィール

私の連絡先情報

技術共有

Python リクエスト クローラー

個人プロフィール

私の連絡先情報

Python リクエストクローラー