Compartir tecnología

Uso de Puppeteer para extraer datos y guardarlos como JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Introducción al titiritero

Puppeteer es una biblioteca Node desarrollada por el equipo de Google Chrome que proporciona una API de alto nivel para controlar una versión sin cabeza de Chrome o Chromium. Puppeteer es capaz de realizar una variedad de tareas, incluida la navegación de páginas, la extracción de contenido, las capturas de pantalla, la generación de PDF y más.

caracteristica principal

  • Control de navegador sin cabeza: realice tareas sin abrir una interfaz de navegador.
  • Multiplataforma: soporta Windows, Linux y macOS.
  • API enriquecida: proporcione API enriquecida para simular el comportamiento del usuario.

Usando Puppeteer para extraer datos

Proceso básico

  1. Inicie un navegador: utilice Puppeteer para iniciar un navegador sin cabeza.
  2. Abrir página: cree una nueva instancia de página y navegue hasta la URL de destino.
  3. Espere a que se cargue la página: asegúrese de que la página se cargue por completo.
  4. Obtener contenido: utilice la API proporcionada por Puppeteer para obtener el contenido de la página.
  5. Registro: registre el contenido capturado o la información relacionada en un archivo de registro.
  6. Cerrar navegador: cierre el navegador una vez completada la tarea.

Proceso de implementación

Supongamos que necesitamos rastrear datos de una tabla en una página web. Estos son los pasos para lograrlo:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =