Einführung in den Python-Crawler Basics

Einführung in die Grundlagen des Python-Crawlers

2024-07-11

Schritt

Holen Sie sich Webinhalte:
1. http-Anfrage
2. Fordert eine Bibliothek für Python an
Webinhalte analysieren
1. HTML-Webseitenstruktur
2. Wunderschöne Suppenbibliothek für Python
Daten speichern oder analysieren
1. In der Datenbank speichern
2. Daten als KI-Analyse
3. In Diagramm umwandeln und anzeigen

DDoS-Angriff

Durch das Senden massiver Hochfrequenzanfragen an den Server werden große Mengen an Webseitenressourcen verbraucht und die Anfragen anderer Benutzer beeinträchtigt.

beachte die Regeln

Sie können die robots.txt-Datei der Website anzeigen, um den Bereich der Webseitenpfade zu verstehen, die gecrawlt werden können

HTTP (Hypertext Transfer Protocol Hypertext Transfer Protocol)

Request-Response-Protokoll zwischen Client und Server.
Anforderungsmethode: (häufig verwendet)
1. GET: Daten abrufen
2. POST: Daten erstellen

Die Anfrage besteht aus:

POST /user/info HTTP/1.1           #请求行（包含方法类型、资源路径、协议版本）
Host:www.example.com              #请求头
User-Agent:curl/7.77.0            #请求头
Accept:*/*                        #请求头

{"username":"呦呦呦",              #请求体
"email":"[email protected]"}      #请求头

Technologieaustausch