Compartilhamento de tecnologia

Usando o Puppeteer para extração de dados e salvamento como JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Introdução ao marionetista

Puppeteer é uma biblioteca Node desenvolvida pela equipe do Google Chrome que fornece uma API de alto nível para controlar uma versão headless do Chrome ou Chromium. O Puppeteer é capaz de realizar uma variedade de tarefas, incluindo navegação de página, extração de conteúdo, capturas de tela, geração de PDF e muito mais.

Característica principal

  • Controle de navegador sem cabeça: execute tarefas sem abrir a interface do navegador.
  • Plataforma cruzada: suporta Windows, Linux e macOS.
  • API rica: fornece API rica para simular o comportamento do usuário.

Usando o Puppeteer para extração de dados

Processo básico

  1. Inicie um navegador: Use o Puppeteer para iniciar um navegador sem cabeça.
  2. Abrir página: crie uma nova instância de página e navegue até o URL de destino.
  3. Aguarde o carregamento da página: certifique-se de que a página carregue completamente.
  4. Buscar conteúdo: use a API fornecida pelo Puppeteer para obter o conteúdo da página.
  5. Registro: registre o conteúdo capturado ou informações relacionadas em um arquivo de registro.
  6. Fechar navegador: feche o navegador após a conclusão da tarefa.

Processo de implementação

Suponha que precisemos rastrear dados de tabela em uma página da web. Aqui estão as etapas para fazer isso:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =