Partage de technologie

Introduction aux bases du robot d'exploration Python

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

étape

  1. Obtenez du contenu Web :

    1. requête http

    2. Bibliothèque de requêtes pour python

  2. Analyser le contenu Web

    1. structure des pages Web HTML

    2. Belle bibliothèque Soup pour python

  3. Stocker ou analyser des données

    1. Stocker dans la base de données

    2. Les données comme analyse de l'IA

    3. Convertir en graphique et afficher

Attaque DDoS

En envoyant des requêtes massives à haute fréquence au serveur, une grande quantité de ressources de pages Web est consommée et les requêtes des autres utilisateurs sont affectées.

suis les règles

Vous pouvez consulter le fichier robots.txt du site Web pour comprendre l'éventail de chemins de pages Web qui peuvent être explorés.

HTTP (protocole de transfert hypertexte)

  1. Protocole requête-réponse entre client et serveur.

  2. Méthode de requête : (couramment utilisée)

    1. OBTENIR : obtenir des données

    2. POST : Créer des données

  3. La demande consiste en :
    POST /user/info HTTP/1.1           #请求行(包含方法类型、资源路径、协议版本)
    Host:www.example.com              #请求头
    User-Agent:curl/7.77.0            #请求头
    Accept:*/*                        #请求头
    
    {"username":"呦呦呦",              #请求体
    "email":"[email protected]"}      #请求头