Teknologian jakaminen

Puppeteerin käyttö tietojen kaappaamiseen ja tallentamiseen JSON-muodossa

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Johdatus Nukketeatteriin

Puppeteer on Google Chrome -tiimin kehittämä Node-kirjasto, joka tarjoaa korkean tason sovellusliittymän Chromen tai Chromiumin päättömän version ohjaamiseen. Puppeteer pystyy suorittamaan erilaisia ​​tehtäviä, mukaan lukien sivunavigointi, sisällön kaapiminen, kuvakaappaukset, PDF-muodon luominen ja paljon muuta.

pääominaisuus

  • Headless Browser Control: Suorita tehtäviä avaamatta selaimen käyttöliittymää.
  • Monikäyttöjärjestelmä: tukee Windowsia, Linuxia ja macOS:ää.
  • Rich API: Tarjoa monipuolinen API simuloidaksesi käyttäjien käyttäytymistä.

Puppeteerin käyttö tietojen kaavinta

Perusprosessi

  1. Käynnistä selain: Käytä Puppeteeria käynnistääksesi päättömän selaimen.
  2. Avaa sivu: Luo uusi sivun esiintymä ja siirry kohde-URL-osoitteeseen.
  3. Odota sivun latautumista: Varmista, että sivu latautuu kokonaan.
  4. Hae sisältö: Käytä Puppeteerin tarjoamaa sovellusliittymää sivun sisällön hankkimiseen.
  5. Kirjaaminen: Tallenna kaapattu sisältö tai siihen liittyvät tiedot lokitiedostoon.
  6. Sulje selain: Sulje selain, kun tehtävä on suoritettu.

Toteutusprosessi

Oletetaan, että meidän on indeksoitava verkkosivun taulukkotiedot seuraavasti:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =