Condivisione della tecnologia

Introduzione alle nozioni di base del crawler Python

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

fare un passo

  1. Ottieni contenuti web:

    1. richiesta http

    2. Richiede la libreria per Python

  2. Analizzare il contenuto web

    1. struttura della pagina web html

    2. Bellissima libreria Soup per Python

  3. Archiviare o analizzare i dati

    1. Memorizzare nel database

    2. Dati come analisi dell'intelligenza artificiale

    3. Convertire in grafico e visualizzare

Attacco DDoS

Inviando massicce richieste ad alta frequenza al server, viene consumata una grande quantità di risorse della pagina Web e le richieste di altri utenti vengono influenzate.

Segui le regole

È possibile visualizzare il file robots.txt del sito Web per comprendere la gamma di percorsi di pagine Web di cui è possibile eseguire la scansione

HTTP (protocollo di trasferimento ipertesto protocollo di trasferimento ipertesto)

  1. Protocollo di richiesta-risposta tra client e server.

  2. Metodo di richiesta: (comunemente usato)

    1. OTTIENI: ottieni dati

    2. POST: crea dati

  3. La richiesta è composta da:
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头