Berbagi teknologi

Menggunakan Dalang untuk pengumpulan dan penyimpanan data sebagai JSON

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Pengantar Dalang

Dalang adalah perpustakaan Node yang dikembangkan oleh tim Google Chrome yang menyediakan API tingkat tinggi untuk mengontrol versi Chrome atau Chromium tanpa kepala. Dalang mampu melakukan berbagai tugas, termasuk navigasi halaman, pengikisan konten, tangkapan layar, pembuatan PDF, dan banyak lagi.

Fitur utama

  • Kontrol Browser Tanpa Kepala: Melakukan tugas tanpa membuka antarmuka browser.
  • Lintas platform: mendukung Windows, Linux dan macOS.
  • API Kaya: Menyediakan API kaya untuk menyimulasikan perilaku pengguna.

Menggunakan Dalang untuk pengikisan data

Proses dasar

  1. Luncurkan browser: Gunakan Dalang untuk meluncurkan browser tanpa kepala.
  2. Buka halaman: Buat contoh halaman baru dan navigasikan ke URL target.
  3. Tunggu hingga halaman dimuat: Pastikan halaman dimuat sepenuhnya.
  4. Ambil konten: Gunakan API yang disediakan oleh Dalang untuk mendapatkan konten halaman.
  5. Logging: Rekam konten yang diambil atau informasi terkait ke file log.
  6. Tutup browser: Tutup browser setelah tugas selesai.

Proses implementasi

Misalkan kita perlu meng-crawl data tabel pada halaman web. Berikut langkah-langkah untuk mencapainya:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =