Το Puppeteer είναι μια βιβλιοθήκη Node που αναπτύχθηκε από την ομάδα του Google Chrome που παρέχει ένα API υψηλού επιπέδου για τον έλεγχο μιας χωρίς κεφαλή έκδοσης του Chrome ή του Chromium. Το Puppeteer είναι σε θέση να εκτελεί μια ποικιλία εργασιών, όπως πλοήγηση σελίδας, απόξεση περιεχομένου, στιγμιότυπα οθόνης, δημιουργία PDF και πολλά άλλα.
κύριο χαρακτηριστικό
Headless Browser Control: Εκτελέστε εργασίες χωρίς να ανοίξετε μια διεπαφή προγράμματος περιήγησης.
Cross-platform: υποστηρίζει Windows, Linux και macOS.
Rich API: Παρέχετε εμπλουτισμένο API για την προσομοίωση της συμπεριφοράς των χρηστών.
Χρήση του Puppeteer για απόξεση δεδομένων
Βασική διαδικασία
Εκκίνηση προγράμματος περιήγησης: Χρησιμοποιήστε το Puppeteer για να εκκινήσετε ένα πρόγραμμα περιήγησης χωρίς κεφαλές.
Άνοιγμα σελίδας: Δημιουργήστε μια νέα παρουσία σελίδας και πλοηγηθείτε στη διεύθυνση URL προορισμού.
Περιμένετε να φορτώσει η σελίδα: Βεβαιωθείτε ότι η σελίδα φορτώνεται πλήρως.
Λήψη περιεχομένου: Χρησιμοποιήστε το API που παρέχεται από το Puppeteer για να αποκτήσετε περιεχόμενο σελίδας.
Καταγραφή: Καταγράψτε το περιεχόμενο ή τις σχετικές πληροφορίες σε ένα αρχείο καταγραφής.
Κλείσιμο προγράμματος περιήγησης: Κλείστε το πρόγραμμα περιήγησης μετά την ολοκλήρωση της εργασίας.
Διαδικασία υλοποίησης
Ας υποθέσουμε ότι πρέπει να ανιχνεύσουμε δεδομένα πίνακα σε μια ιστοσελίδα Ακολουθούν τα βήματα για να το επιτύχουμε: