Обмен технологиями

Использование Puppeteer для очистки данных и сохранения их в формате JSON.

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Python_00044.png

Введение в кукловод

Puppeteer — это библиотека Node, разработанная командой Google Chrome, которая предоставляет API высокого уровня для управления безголовой версией Chrome или Chromium. Puppeteer способен выполнять различные задачи, включая навигацию по страницам, очистку контента, создание снимков экрана, создание PDF-файлов и многое другое.

Главная особенность

  • Безголовое управление браузером: выполняйте задачи, не открывая интерфейс браузера.
  • Кроссплатформенность: поддерживает Windows, Linux и macOS.
  • Богатый API: предоставьте богатый API для моделирования поведения пользователя.

Использование Puppeteer для очистки данных

Основной процесс

  1. Запустите браузер. Используйте Puppeteer, чтобы запустить автономный браузер.
  2. Открыть страницу: создайте новый экземпляр страницы и перейдите к целевому URL-адресу.
  3. Подождите, пока страница загрузится. Убедитесь, что страница загружается полностью.
  4. Получение содержимого: используйте API, предоставленный Puppeteer, для получения содержимого страницы.
  5. Ведение журнала: запись захваченного контента или связанной информации в файл журнала.
  6. Закрыть браузер: закройте браузер после завершения задачи.

Процесс реализации

Предположим, нам нужно сканировать данные таблицы на веб-странице. Вот шаги для этого:

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =