Technologieaustausch

Verwendung von Puppeteer zum Scrapen und Speichern von Daten als JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Einführung in den Puppenspieler

Puppeteer ist eine vom Google Chrome-Team entwickelte Node-Bibliothek, die eine High-Level-API zur Steuerung einer Headless-Version von Chrome oder Chromium bereitstellt. Puppeteer ist in der Lage, eine Vielzahl von Aufgaben auszuführen, darunter Seitennavigation, Content Scraping, Screenshots, PDF-Generierung und mehr.

Hauptmerkmal

  • Headless Browser Control: Führen Sie Aufgaben aus, ohne eine Browseroberfläche zu öffnen.
  • Plattformübergreifend: Unterstützt Windows, Linux und macOS.
  • Rich API: Stellen Sie eine umfangreiche API zur Simulation des Benutzerverhaltens bereit.

Verwendung von Puppeteer zum Daten-Scraping

Grundlegender Prozess

  1. Starten Sie einen Browser: Verwenden Sie Puppeteer, um einen Headless-Browser zu starten.
  2. Seite öffnen: Erstellen Sie eine neue Seiteninstanz und navigieren Sie zur Ziel-URL.
  3. Warten Sie, bis die Seite geladen ist: Stellen Sie sicher, dass die Seite vollständig geladen wird.
  4. Inhalt abrufen: Verwenden Sie die von Puppeteer bereitgestellte API, um Seiteninhalte abzurufen.
  5. Protokollierung: Zeichnen Sie den erfassten Inhalt oder zugehörige Informationen in einer Protokolldatei auf.
  6. Browser schließen: Schließen Sie den Browser, nachdem die Aufgabe abgeschlossen ist.

Umsetzungsprozess

Angenommen, wir müssen Tabellendaten auf einer Webseite crawlen. Hier sind die Schritte, um dies zu erreichen:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =