Use o Puppeteer para extrair dados e salvá-los como JSON

Usando o Puppeteer para extração de dados e salvamento como JSON

2024-07-11

Introdução ao marionetista

Puppeteer é uma biblioteca Node desenvolvida pela equipe do Google Chrome que fornece uma API de alto nível para controlar uma versão headless do Chrome ou Chromium. O Puppeteer é capaz de realizar uma variedade de tarefas, incluindo navegação de página, extração de conteúdo, capturas de tela, geração de PDF e muito mais.

Característica principal

Controle de navegador sem cabeça: execute tarefas sem abrir a interface do navegador.
Plataforma cruzada: suporta Windows, Linux e macOS.
API rica: fornece API rica para simular o comportamento do usuário.

Usando o Puppeteer para extração de dados

Processo básico

Inicie um navegador: Use o Puppeteer para iniciar um navegador sem cabeça.
Abrir página: crie uma nova instância de página e navegue até o URL de destino.
Aguarde o carregamento da página: certifique-se de que a página carregue completamente.
Buscar conteúdo: use a API fornecida pelo Puppeteer para obter o conteúdo da página.
Registro: registre o conteúdo capturado ou informações relacionadas em um arquivo de registro.
Fechar navegador: feche o navegador após a conclusão da tarefa.

Processo de implementação

Suponha que precisemos rastrear dados de tabela em uma página da web. Aqui estão as etapas para fazer isso:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =

Compartilhamento de tecnologia