Compartilhamento de tecnologia

Introdução aos fundamentos do rastreador python

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

etapa

  1. Obtenha conteúdo da web:

    1. solicitação http

    2. Solicita biblioteca para python

  2. Analisar conteúdo da web

    1. estrutura da página html

    2. Linda biblioteca de sopas para python

  3. Armazene ou analise dados

    1. Armazenar no banco de dados

    2. Dados como análise de IA

    3. Converter para gráfico e exibir

Ataque DDoS

Ao enviar solicitações massivas de alta frequência ao servidor, uma grande quantidade de recursos da página da web é consumida e as solicitações de outros usuários são afetadas.

Siga as regras

Você pode visualizar o arquivo robots.txt do site para entender a variedade de caminhos de páginas da web que podem ser rastreados

HTTP (Protocolo de Transferência de Hipertexto Protocolo de Transferência de Hipertexto)

  1. Protocolo de solicitação-resposta entre cliente e servidor.

  2. Método de solicitação: (comumente usado)

    1. OBTER: Obtenha dados

    2. POST: Criar dados

  3. A solicitação consiste em:
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头