Verwenden Sie Puppeteer, um Daten zu extrahieren und als JSON

Verwendung von Puppeteer zum Scrapen und Speichern von Daten als JSON

2024-07-11

Einführung in den Puppenspieler

Puppeteer ist eine vom Google Chrome-Team entwickelte Node-Bibliothek, die eine High-Level-API zur Steuerung einer Headless-Version von Chrome oder Chromium bereitstellt. Puppeteer ist in der Lage, eine Vielzahl von Aufgaben auszuführen, darunter Seitennavigation, Content Scraping, Screenshots, PDF-Generierung und mehr.

Hauptmerkmal

Headless Browser Control: Führen Sie Aufgaben aus, ohne eine Browseroberfläche zu öffnen.
Plattformübergreifend: Unterstützt Windows, Linux und macOS.
Rich API: Stellen Sie eine umfangreiche API zur Simulation des Benutzerverhaltens bereit.

Verwendung von Puppeteer zum Daten-Scraping

Grundlegender Prozess

Starten Sie einen Browser: Verwenden Sie Puppeteer, um einen Headless-Browser zu starten.
Seite öffnen: Erstellen Sie eine neue Seiteninstanz und navigieren Sie zur Ziel-URL.
Warten Sie, bis die Seite geladen ist: Stellen Sie sicher, dass die Seite vollständig geladen wird.
Inhalt abrufen: Verwenden Sie die von Puppeteer bereitgestellte API, um Seiteninhalte abzurufen.
Protokollierung: Zeichnen Sie den erfassten Inhalt oder zugehörige Informationen in einer Protokolldatei auf.
Browser schließen: Schließen Sie den Browser, nachdem die Aufgabe abgeschlossen ist.

Umsetzungsprozess

Angenommen, wir müssen Tabellendaten auf einer Webseite crawlen. Hier sind die Schritte, um dies zu erreichen:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =

Technologieaustausch