Teknologian jakaminen

Scrapy kirjoittaa indeksoijat

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Scrapy on Python-kehys verkkosivustotietojen indeksointiin ja strukturoidun tiedon poimimiseen

1. Johdatus Scrapyyn

1. Moottori
– Scrapyn moottori on tietovirran hallinnan ja tapahtumien käynnistämisen ydin. Se hallitsee Hämähäkin lähettämiä pyyntöjä ja vastaanotettuja vastauksia sekä käsittelee Hämähäkin luomia kohteita. Moottori on Scrapyn toiminnan liikkeellepaneva voima.

2. Aikataulu
– Aikatauluttaja on vastuussa moottorin lähettämien pyyntöjen vastaanottamisesta ja niiden jonosta tiettyjen käytäntöjen mukaisesti (kuten prioriteetti, syvyys jne.). Kun moottori tarvitsee uuden pyynnön, ajastin ottaa pyynnön jonosta ja palauttaa sen moottorille. Se varmistaa pyyntöjen asianmukaisen käsittelyn.

3. Downloader
– Lataaja on vastuussa verkkosisällön lataamisesta Scrapy-moottorin lähettämien pyyntöjen perusteella. Se käyttää HTTP-protokollaa yhteydenpitoon verkkosivustopalvelimen kanssa ja palauttaa ladatun verkkosivun sisällön Scrapy-moottorille vastauksena. Latausohjelma on Scrapyn ydinkomponentti verkkosivutietojen hankkimiseksi.

4. Hämähäkit
– Hämähäkit ovat Scrapyn komponentteja, joita käytetään indeksointilogiikan määrittämiseen ja verkkosivun sisällön jäsentämiseen.Ne luovat alkuperäisiä pyyntöjä määriteltyjen sääntöjen perusteella ja käsittelevät lataajan palauttaman vastauksen poimiakseen vaaditut tiedot (kohde) tai luodakseen uuden pyynnön (Request) jatkoindeksointia varten.

5.Tuoteputket
– Tuoteputket ovat vastuussa Spiderin poimimien kohteiden käsittelystä. He voivat suorittaa erilaisia ​​tehtäviä, kuten puhdistaa tietoja, varmistaa tietojen eheyden ja tallentaa tietoja tietokantoihin tai tiedostoihin. Määrittämällä useita putkilinjoja dataa voidaan käsitellä joustavasti erilaisiin tarpeisiin.

6. Downloader Middlewares
– Downloader-väliohjelmisto sijaitsee Scrapy-moottorin ja latausohjelman välissä, ja sitä käytetään käsittelemään pyyntöjä ja vastauksia. He voivat muokata pyyntöä (kuten lisätä pyyntöotsikoita, asettaa välityspalvelimia jne.) tai vastausta (kuten pakkauskäsittelyä, uudelleenohjauskäsittelyä jne.) ja siten hallita, kuinka Scrapy on vuorovaikutuksessa verkkosivuston kanssa. Middleware on tärkeä mekanismi Scrapylle laajentaakseen toimintojaan.

7. Spider Middlewares
– Spider-väliohjelmisto sijaitsee Scrapy-moottorin ja Spidersin välissä, ja sitä käytetään käsittelemään Spiderin syötettä (eli vastausta) ja lähtöä (eli nimikettä ja uusia pyyntöjä). He voivat muokata tai hylätä vastauksia, käsitellä poikkeuksia ja jopa muokata tai hylätä hämähäkkien luomia kohteita ja pyyntöjä. Spider-väliohjelmisto tarjoaa mahdollisuuden lisätä mukautettuja toimintoja Spider-suorituksen aikana.

Tietovirta kunkin komponentin välillä on esitetty kuvassa:
Lisää kuvan kuvaus tähän

  • Alkaen alkuperäisestä URL-osoitteesta, ajoitusohjelma luovuttaa sen lataajalle ladattavaksi
  • Latauksen jälkeen se luovutetaan Spiderille analysoitavaksi.
  • Spider analysoi kahdenlaisia ​​tuloksia:
  • Yksi niistä on linkit, jotka on indeksoitava edelleen, kuten "seuraava sivu" -linkit, jotka välitetään takaisin ajoittimelle.
  • Toinen on tallennettava data, joka lähetetään Item Pipeline -järjestelmään jälkikäsittelyä varten (yksityiskohtainen analyysi, suodatus, tallennus jne.)

2. Asenna scrapy

pip install scrapy