Ο scrapy γράφει crawler

Scrapy γράφει crawlers

2024-07-11

Το Scrapy είναι ένα πλαίσιο Python για την ανίχνευση δεδομένων ιστότοπου και την εξαγωγή δομημένων πληροφοριών

1. Εισαγωγή στο Scrapy

1.Μηχανή
– Ο κινητήρας του Scrapy είναι ο πυρήνας του ελέγχου της ροής δεδομένων και της ενεργοποίησης συμβάντων. Διαχειρίζεται τα αιτήματα που αποστέλλονται από το Spider και τις απαντήσεις που λαμβάνονται, καθώς και την επεξεργασία των Αντικειμένων που δημιουργούνται από το Spider. Ο κινητήρας είναι η κινητήρια δύναμη πίσω από τη λειτουργία του Scrapy.

2.Προγραμματιστής
– Ο προγραμματιστής είναι υπεύθυνος για τη λήψη αιτημάτων που αποστέλλονται από τον κινητήρα και την ουρά τους σύμφωνα με ορισμένες πολιτικές (όπως προτεραιότητα, βάθος κ.λπ.). Όταν ο κινητήρας χρειάζεται ένα νέο αίτημα, ο προγραμματιστής παίρνει το αίτημα από την ουρά και το επιστρέφει στον κινητήρα. Εξασφαλίζει την ομαλή διεκπεραίωση των αιτημάτων.

3. Πρόγραμμα λήψης
– Το πρόγραμμα λήψης είναι υπεύθυνο για τη λήψη περιεχομένου ιστού βάσει αιτημάτων που αποστέλλονται από τη μηχανή Scrapy. Χρησιμοποιεί πρωτόκολλο HTTP για να επικοινωνεί με τον διακομιστή του ιστότοπου και επιστρέφει το περιεχόμενο της ιστοσελίδας που έχει ληφθεί στη μηχανή Scrapy ως απάντηση. Το πρόγραμμα λήψης είναι το βασικό στοιχείο του Scrapy για τη λήψη δεδομένων ιστοσελίδας.

4.Αράχνες
– Οι αράχνες είναι στοιχεία στο Scrapy που χρησιμοποιούνται για τον ορισμό της λογικής ανίχνευσης και την ανάλυση του περιεχομένου της ιστοσελίδας.Δημιουργούν αρχικά αιτήματα με βάση καθορισμένους κανόνες και επεξεργάζονται την απάντηση που επιστρέφεται από το πρόγραμμα λήψης για να εξαγάγουν τα απαιτούμενα δεδομένα (Item) ή δημιουργούν ένα νέο αίτημα (Request) για περαιτέρω ανίχνευση.

5.Σωληνώσεις ειδών
– Οι Σωληνώσεις Αντικειμένων είναι υπεύθυνες για την επεξεργασία Αντικειμένων που εξάγονται από την Spider. Μπορούν να εκτελέσουν διάφορες εργασίες, όπως καθαρισμό δεδομένων, επαλήθευση της ακεραιότητας δεδομένων και αποθήκευση δεδομένων σε βάσεις δεδομένων ή αρχεία. Με τον καθορισμό πολλαπλών αγωγών, τα δεδομένα μπορούν να υποβληθούν σε επεξεργασία με ευελιξία για την κάλυψη διαφορετικών αναγκών.

6. Downloader Middlewares
– Το ενδιάμεσο λογισμικό λήψης βρίσκεται μεταξύ του μηχανισμού Scrapy και του προγράμματος λήψης και χρησιμοποιείται για τη διαχείριση αιτημάτων και απαντήσεων. Μπορούν να τροποποιήσουν το αίτημα (όπως προσθήκη κεφαλίδων αιτήματος, ρύθμιση διακομιστών μεσολάβησης κ.λπ.) ή την απόκριση (όπως επεξεργασία συμπίεσης, επεξεργασία ανακατεύθυνσης κ.λπ.), ελέγχοντας έτσι τον τρόπο με τον οποίο το Scrapy αλληλεπιδρά με τον ιστότοπο. Το Middleware είναι ένας σημαντικός μηχανισμός για το Scrapy να επεκτείνει τη λειτουργικότητά του.

7. Spider Middlewares
– Το ενδιάμεσο λογισμικό Spider βρίσκεται μεταξύ του κινητήρα Scrapy και του Spider και χρησιμοποιείται για την επεξεργασία της εισόδου (δηλαδή απόκρισης) και της εξόδου του Spider (δηλαδή στοιχείου και νέων αιτημάτων). Μπορούν να τροποποιήσουν ή να απορρίψουν απαντήσεις, να χειριστούν εξαιρέσεις, ακόμη και να τροποποιήσουν ή να απορρίψουν στοιχεία και αιτήματα που δημιουργούνται από αράχνες. Το ενδιάμεσο λογισμικό Spider παρέχει τη δυνατότητα εισαγωγής προσαρμοσμένων συναρτήσεων κατά την εκτέλεση του Spider.

Η ροή δεδομένων μεταξύ κάθε στοιχείου φαίνεται στο σχήμα:
Εισαγάγετε την περιγραφή της εικόνας εδώ

Ξεκινώντας από την αρχική διεύθυνση URL, ο Προγραμματιστής θα το παραδώσει στο πρόγραμμα λήψης για λήψη
Μετά τη λήψη, θα παραδοθεί στην Spider για ανάλυση.
Υπάρχουν δύο τύποι αποτελεσμάτων που αναλύονται από την Spider:
Ο ένας είναι οι σύνδεσμοι που πρέπει να ανιχνευθούν περαιτέρω, όπως οι σύνδεσμοι "επόμενης σελίδας", οι οποίοι θα περάσουν πίσω στο Χρονοδιάγραμμα.
Το άλλο είναι τα δεδομένα που πρέπει να αποθηκευτούν, τα οποία αποστέλλονται στο Item Pipeline για μετεπεξεργασία (λεπτομερής ανάλυση, φιλτράρισμα, αποθήκευση κ.λπ.)

2. Εγκαταστήστε το scrapy

pip install scrapy

Κοινή χρήση τεχνολογίας

Scrapy γράφει crawlers

1. Εισαγωγή στο Scrapy

2. Εγκαταστήστε το scrapy

个人简介

我的联系方式