Usa Puppeteer per raccogliere dati e salvarli come JSON

Utilizzo di Puppeteer per lo scraping e il salvataggio dei dati come JSON

2024-07-11

Introduzione al burattinaio

Puppeteer è una libreria Node sviluppata dal team di Google Chrome che fornisce un'API di alto livello per controllare una versione headless di Chrome o Chromium. Puppeteer è in grado di eseguire una varietà di attività, tra cui la navigazione delle pagine, lo scraping dei contenuti, gli screenshot, la generazione di PDF e altro ancora.

caratteristica principale

Controllo headless del browser: esegui attività senza aprire l'interfaccia del browser.
Multipiattaforma: supporta Windows, Linux e macOS.
API ricca: fornisce un'API ricca per simulare il comportamento dell'utente.

Utilizzo di Puppeteer per lo scraping dei dati

Processo di base

Avvia un browser: utilizza Puppeteer per avviare un browser headless.
Apri pagina: crea una nuova istanza di pagina e vai all'URL di destinazione.
Attendi il caricamento della pagina: assicurati che la pagina venga caricata completamente.
Recupera contenuto: utilizza l'API fornita da Puppeteer per ottenere il contenuto della pagina.
Registrazione: registra il contenuto acquisito o le informazioni correlate in un file di registro.
Chiudi browser: chiude il browser al termine dell'attività.

Processo di implementazione

Supponiamo di dover eseguire la scansione dei dati della tabella su una pagina Web. Ecco i passaggi per ottenerlo:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =

Condivisione della tecnologia