Compartir tecnología

Introducción a los conceptos básicos del rastreador de Python

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

paso

  1. Obtener contenido web:

    1. solicitud http

    2. Biblioteca de solicitudes para Python

  2. Analizar contenido web

    1. estructura de pagina web html

    2. Hermosa biblioteca de sopa para Python

  3. Almacenar o analizar datos

    1. Almacenar en base de datos

    2. Datos como análisis de IA

    3. Convertir a gráfico y mostrar

Ataque DDoS

Al enviar solicitudes masivas de alta frecuencia al servidor, se consume una gran cantidad de recursos de la página web y las solicitudes de otros usuarios se ven afectadas.

sigue las reglas

Puede ver el archivo robots.txt del sitio web para comprender la variedad de rutas de páginas web que se pueden rastrear.

HTTP (Protocolo de transferencia de hipertexto Protocolo de transferencia de hipertexto)

  1. Protocolo de solicitud-respuesta entre cliente y servidor.

  2. Método de solicitud: (de uso común)

    1. OBTENER: Obtener datos

    2. PUBLICACIÓN: Crear datos

  3. La solicitud consta de:
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头