Python クローラーの概要

Python クローラーの基本の紹介

2024-07-11

ステップ

Web コンテンツを取得します。
1. httpリクエスト
2. Python用のリクエストライブラリ
Web コンテンツを解析する
1. HTML Webページの構造
2. Python 用の美しいスープライブラリ
データの保存または分析
1. データベースに保存する
2. AI分析としてのデータ
3. グラフに変換して表示

DDoS攻撃

大量の高頻度のリクエストをサーバーに送信すると、大量の Web ページのリソースが消費され、他のユーザーのリクエストに影響を与えます。

ルールに従う

Web サイトの robots.txt ファイルを表示すると、クロールできる Web ページのパスの範囲を理解できます。

HTTP (ハイパーテキスト転送プロトコルハイパーテキスト転送プロトコル)

クライアントとサーバー間の要求/応答プロトコル。
リクエスト方法：（一般的に使用される）
1. GET: データを取得します
2. POST: データの作成

リクエストは次の内容で構成されます。

POST /user/info HTTP/1.1           #请求行（包含方法类型、资源路径、协议版本）
Host:www.example.com              #请求头
User-Agent:curl/7.77.0            #请求头
Accept:*/*                        #请求头

{"username":"呦呦呦",              #请求体
"email":"[email protected]"}      #请求头

技術共有

Python クローラーの基本の紹介

ステップ

DDoS攻撃

ルールに従う

HTTP (ハイパーテキスト転送プロトコルハイパーテキスト転送プロトコル)

リクエストは次の内容で構成されます。

个人简介

我的联系方式

技術共有

Python クローラーの基本の紹介

ステップ

DDoS攻撃

ルールに従う

HTTP (ハイパーテキスト転送プロトコル ハイパーテキスト転送プロトコル)

リクエストは次の内容で構成されます。

个人简介

我的联系方式

HTTP (ハイパーテキスト転送プロトコルハイパーテキスト転送プロトコル)