Condivisione della tecnologia

Utilizzo di Puppeteer per lo scraping e il salvataggio dei dati come JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Introduzione al burattinaio

Puppeteer è una libreria Node sviluppata dal team di Google Chrome che fornisce un'API di alto livello per controllare una versione headless di Chrome o Chromium. Puppeteer è in grado di eseguire una varietà di attività, tra cui la navigazione delle pagine, lo scraping dei contenuti, gli screenshot, la generazione di PDF e altro ancora.

caratteristica principale

  • Controllo headless del browser: esegui attività senza aprire l'interfaccia del browser.
  • Multipiattaforma: supporta Windows, Linux e macOS.
  • API ricca: fornisce un'API ricca per simulare il comportamento dell'utente.

Utilizzo di Puppeteer per lo scraping dei dati

Processo di base

  1. Avvia un browser: utilizza Puppeteer per avviare un browser headless.
  2. Apri pagina: crea una nuova istanza di pagina e vai all'URL di destinazione.
  3. Attendi il caricamento della pagina: assicurati che la pagina venga caricata completamente.
  4. Recupera contenuto: utilizza l'API fornita da Puppeteer per ottenere il contenuto della pagina.
  5. Registrazione: registra il contenuto acquisito o le informazioni correlate in un file di registro.
  6. Chiudi browser: chiude il browser al termine dell'attività.

Processo di implementazione

Supponiamo di dover eseguire la scansione dei dati della tabella su una pagina Web. Ecco i passaggi per ottenerlo:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =