2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Scrapy on Python-kehys verkkosivustotietojen indeksointiin ja strukturoidun tiedon poimimiseen
1. Moottori
– Scrapyn moottori on tietovirran hallinnan ja tapahtumien käynnistämisen ydin. Se hallitsee Hämähäkin lähettämiä pyyntöjä ja vastaanotettuja vastauksia sekä käsittelee Hämähäkin luomia kohteita. Moottori on Scrapyn toiminnan liikkeellepaneva voima.
2. Aikataulu
– Aikatauluttaja on vastuussa moottorin lähettämien pyyntöjen vastaanottamisesta ja niiden jonosta tiettyjen käytäntöjen mukaisesti (kuten prioriteetti, syvyys jne.). Kun moottori tarvitsee uuden pyynnön, ajastin ottaa pyynnön jonosta ja palauttaa sen moottorille. Se varmistaa pyyntöjen asianmukaisen käsittelyn.
3. Downloader
– Lataaja on vastuussa verkkosisällön lataamisesta Scrapy-moottorin lähettämien pyyntöjen perusteella. Se käyttää HTTP-protokollaa yhteydenpitoon verkkosivustopalvelimen kanssa ja palauttaa ladatun verkkosivun sisällön Scrapy-moottorille vastauksena. Latausohjelma on Scrapyn ydinkomponentti verkkosivutietojen hankkimiseksi.
4. Hämähäkit
– Hämähäkit ovat Scrapyn komponentteja, joita käytetään indeksointilogiikan määrittämiseen ja verkkosivun sisällön jäsentämiseen.Ne luovat alkuperäisiä pyyntöjä määriteltyjen sääntöjen perusteella ja käsittelevät lataajan palauttaman vastauksen poimiakseen vaaditut tiedot (kohde) tai luodakseen uuden pyynnön (Request) jatkoindeksointia varten.
5.Tuoteputket
– Tuoteputket ovat vastuussa Spiderin poimimien kohteiden käsittelystä. He voivat suorittaa erilaisia tehtäviä, kuten puhdistaa tietoja, varmistaa tietojen eheyden ja tallentaa tietoja tietokantoihin tai tiedostoihin. Määrittämällä useita putkilinjoja dataa voidaan käsitellä joustavasti erilaisiin tarpeisiin.
6. Downloader Middlewares
– Downloader-väliohjelmisto sijaitsee Scrapy-moottorin ja latausohjelman välissä, ja sitä käytetään käsittelemään pyyntöjä ja vastauksia. He voivat muokata pyyntöä (kuten lisätä pyyntöotsikoita, asettaa välityspalvelimia jne.) tai vastausta (kuten pakkauskäsittelyä, uudelleenohjauskäsittelyä jne.) ja siten hallita, kuinka Scrapy on vuorovaikutuksessa verkkosivuston kanssa. Middleware on tärkeä mekanismi Scrapylle laajentaakseen toimintojaan.
7. Spider Middlewares
– Spider-väliohjelmisto sijaitsee Scrapy-moottorin ja Spidersin välissä, ja sitä käytetään käsittelemään Spiderin syötettä (eli vastausta) ja lähtöä (eli nimikettä ja uusia pyyntöjä). He voivat muokata tai hylätä vastauksia, käsitellä poikkeuksia ja jopa muokata tai hylätä hämähäkkien luomia kohteita ja pyyntöjä. Spider-väliohjelmisto tarjoaa mahdollisuuden lisätä mukautettuja toimintoja Spider-suorituksen aikana.
Tietovirta kunkin komponentin välillä on esitetty kuvassa:
pip install scrapy