प्रौद्योगिकी साझेदारी

Data scraping कृते Puppeteer इत्यस्य उपयोगः JSON इति रूपेण रक्षणाय च

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

पायथन_00044.png

कठपुतलीवादकस्य परिचयः

Puppeteer इति Google Chrome दलेन विकसितं Node पुस्तकालयं यत् Chrome अथवा Chromium इत्यस्य headless संस्करणं नियन्त्रयितुं उच्चस्तरीयं API प्रदाति । Puppeteer पृष्ठस्य नेविगेशनं, सामग्रीस्क्रैपिंग्, स्क्रीनशॉट्, PDF जनरेशन इत्यादीनि विविधानि कार्याणि कर्तुं समर्थः अस्ति ।

मुख्य विशेषता

  • हेडलेस ब्राउजर् नियन्त्रणम् : ब्राउजर् अन्तरफलकं न उद्घाट्य कार्याणि कुर्वन्तु ।
  • क्रॉस्-प्लेटफॉर्म: विण्डोज, लिनक्स, macOS च समर्थयति ।
  • समृद्ध एपिआइ: उपयोक्तृव्यवहारस्य अनुकरणार्थं समृद्ध एपिआइ प्रदातव्यम्।

दत्तांशस्क्रेपिङ्ग् कृते Puppeteer इत्यस्य उपयोगः

मूलभूत प्रक्रिया

  1. ब्राउजर् प्रारम्भं कुर्वन्तु: शिरःरहितं ब्राउजर् प्रारम्भं कर्तुं Puppeteer इत्यस्य उपयोगं कुर्वन्तु।
  2. पृष्ठं उद्घाटयन्तु: नूतनं पृष्ठदृष्टान्तं रचयन्तु लक्ष्य URL - मध्ये गच्छन्तु ।
  3. पृष्ठस्य लोड् भवितुं प्रतीक्षां कुर्वन्तु: पृष्ठं पूर्णतया लोड् भवति इति सुनिश्चितं कुर्वन्तु।
  4. सामग्रीं आनयन्तु: पृष्ठसामग्री प्राप्तुं Puppeteer द्वारा प्रदत्तस्य API इत्यस्य उपयोगं कुर्वन्तु।
  5. लॉगिंग् : गृहीता सामग्रीं वा तत्सम्बद्धां सूचनां वा लॉग् सञ्चिकायां अभिलेखयन्तु ।
  6. ब्राउजर् बन्दं कुर्वन्तु : कार्यस्य समाप्तेः अनन्तरं ब्राउजर् बन्दं कुर्वन्तु।

कार्यान्वयन प्रक्रिया

मानातु यत् अस्माभिः जालपुटे सारणीदत्तांशं क्रॉल करणीयम् अस्ति ।

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =