Technologieaustausch

Einführung in die Grundlagen des Python-Crawlers

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Schritt

  1. Holen Sie sich Webinhalte:

    1. http-Anfrage

    2. Fordert eine Bibliothek für Python an

  2. Webinhalte analysieren

    1. HTML-Webseitenstruktur

    2. Wunderschöne Suppenbibliothek für Python

  3. Daten speichern oder analysieren

    1. In der Datenbank speichern

    2. Daten als KI-Analyse

    3. In Diagramm umwandeln und anzeigen

DDoS-Angriff

Durch das Senden massiver Hochfrequenzanfragen an den Server werden große Mengen an Webseitenressourcen verbraucht und die Anfragen anderer Benutzer beeinträchtigt.

beachte die Regeln

Sie können die robots.txt-Datei der Website anzeigen, um den Bereich der Webseitenpfade zu verstehen, die gecrawlt werden können

HTTP (Hypertext Transfer Protocol Hypertext Transfer Protocol)

  1. Request-Response-Protokoll zwischen Client und Server.

  2. Anforderungsmethode: (häufig verwendet)

    1. GET: Daten abrufen

    2. POST: Daten erstellen

  3. Die Anfrage besteht aus:
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头