Introduzione al crawler Python basics

Introduzione alle nozioni di base del crawler Python

2024-07-11

fare un passo

Ottieni contenuti web:
1. richiesta http
2. Richiede la libreria per Python
Analizzare il contenuto web
1. struttura della pagina web html
2. Bellissima libreria Soup per Python
Archiviare o analizzare i dati
1. Memorizzare nel database
2. Dati come analisi dell'intelligenza artificiale
3. Convertire in grafico e visualizzare

Attacco DDoS

Inviando massicce richieste ad alta frequenza al server, viene consumata una grande quantità di risorse della pagina Web e le richieste di altri utenti vengono influenzate.

Segui le regole

È possibile visualizzare il file robots.txt del sito Web per comprendere la gamma di percorsi di pagine Web di cui è possibile eseguire la scansione

HTTP (protocollo di trasferimento ipertesto protocollo di trasferimento ipertesto)

Protocollo di richiesta-risposta tra client e server.
Metodo di richiesta: (comunemente usato)
1. OTTIENI: ottieni dati
2. POST: crea dati

La richiesta è composta da:

POST /user/info HTTP/1.1           #请求行（包含方法类型、资源路径、协议版本）
Host:www.example.com              #请求头
User-Agent:curl/7.77.0            #请求头
Accept:*/*                        #请求头

{"username":"呦呦呦",              #请求体
"email":"[email protected]"}      #请求头

Condivisione della tecnologia