技術共有

Python クローラーの基本の紹介

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ステップ

  1. Web コンテンツを取得します。

    1. httpリクエスト

    2. Python用のリクエストライブラリ

  2. Web コンテンツを解析する

    1. HTML Webページの構造

    2. Python 用の美しいスープ ライブラリ

  3. データの保存または分析

    1. データベースに保存する

    2. AI分析としてのデータ

    3. グラフに変換して表示

DDoS攻撃

大量の高頻度のリクエストをサーバーに送信すると、大量の Web ページのリソースが消費され、他のユーザーのリクエストに影響を与えます。

ルールに従う

Web サイトの robots.txt ファイルを表示すると、クロールできる Web ページのパスの範囲を理解できます。

HTTP (ハイパーテキスト転送プロトコル ハイパーテキスト転送プロトコル)

  1. クライアントとサーバー間の要求/応答プロトコル。

  2. リクエスト方法:(一般的に使用される)

    1. GET: データを取得します

    2. POST: データの作成

  3. リクエストは次の内容で構成されます。
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头