Κοινή χρήση τεχνολογίας

Χρήση του Puppeteer για απόξεση και αποθήκευση δεδομένων ως JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Εισαγωγή στο Κουκλοπαίκτη

Το Puppeteer είναι μια βιβλιοθήκη Node που αναπτύχθηκε από την ομάδα του Google Chrome που παρέχει ένα API υψηλού επιπέδου για τον έλεγχο μιας χωρίς κεφαλή έκδοσης του Chrome ή του Chromium. Το Puppeteer είναι σε θέση να εκτελεί μια ποικιλία εργασιών, όπως πλοήγηση σελίδας, απόξεση περιεχομένου, στιγμιότυπα οθόνης, δημιουργία PDF και πολλά άλλα.

κύριο χαρακτηριστικό

  • Headless Browser Control: Εκτελέστε εργασίες χωρίς να ανοίξετε μια διεπαφή προγράμματος περιήγησης.
  • Cross-platform: υποστηρίζει Windows, Linux και macOS.
  • Rich API: Παρέχετε εμπλουτισμένο API για την προσομοίωση της συμπεριφοράς των χρηστών.

Χρήση του Puppeteer για απόξεση δεδομένων

Βασική διαδικασία

  1. Εκκίνηση προγράμματος περιήγησης: Χρησιμοποιήστε το Puppeteer για να εκκινήσετε ένα πρόγραμμα περιήγησης χωρίς κεφαλές.
  2. Άνοιγμα σελίδας: Δημιουργήστε μια νέα παρουσία σελίδας και πλοηγηθείτε στη διεύθυνση URL προορισμού.
  3. Περιμένετε να φορτώσει η σελίδα: Βεβαιωθείτε ότι η σελίδα φορτώνεται πλήρως.
  4. Λήψη περιεχομένου: Χρησιμοποιήστε το API που παρέχεται από το Puppeteer για να αποκτήσετε περιεχόμενο σελίδας.
  5. Καταγραφή: Καταγράψτε το περιεχόμενο ή τις σχετικές πληροφορίες σε ένα αρχείο καταγραφής.
  6. Κλείσιμο προγράμματος περιήγησης: Κλείστε το πρόγραμμα περιήγησης μετά την ολοκλήρωση της εργασίας.

Διαδικασία υλοποίησης

Ας υποθέσουμε ότι πρέπει να ανιχνεύσουμε δεδομένα πίνακα σε μια ιστοσελίδα Ακολουθούν τα βήματα για να το επιτύχουμε:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =