Partage de technologie

Utiliser Puppeteer pour récupérer et enregistrer des données au format JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Introduction au marionnettiste

Puppeteer est une bibliothèque Node développée par l'équipe Google Chrome qui fournit une API de haut niveau pour contrôler une version sans tête de Chrome ou Chromium. Puppeteer est capable d'effectuer diverses tâches, notamment la navigation dans les pages, la récupération de contenu, les captures d'écran, la génération de PDF, etc.

caractéristique principale

  • Contrôle du navigateur sans tête : effectuez des tâches sans ouvrir une interface de navigateur.
  • Multiplateforme : prend en charge Windows, Linux et macOS.
  • API riche : fournissez une API riche pour simuler le comportement des utilisateurs.

Utiliser Puppeteer pour récupérer des données

Processus de base

  1. Lancer un navigateur : utilisez Puppeteer pour lancer un navigateur sans interface graphique.
  2. Ouvrir la page : créez une nouvelle instance de page et accédez à l'URL cible.
  3. Attendez que la page se charge : assurez-vous que la page se charge complètement.
  4. Récupérer le contenu : utilisez l'API fournie par Puppeteer pour obtenir le contenu de la page.
  5. Journalisation : enregistrez le contenu capturé ou les informations associées dans un fichier journal.
  6. Fermer le navigateur : fermez le navigateur une fois la tâche terminée.

Processus de mise en œuvre

Supposons que nous devions explorer les données d'un tableau sur une page Web. Voici les étapes pour y parvenir :

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =