Puppeteer を使用してデータをスクレイピングし、JSON

Puppeteer を使用したデータのスクレイピングと JSON としての保存

2024-07-11

パペッティアの紹介

Puppeteer は、Google Chrome チームによって開発された Node ライブラリで、Chrome または Chromium のヘッドレスバージョンを制御するための高レベル API を提供します。 Puppeteer は、ページナビゲーション、コンテンツスクレイピング、スクリーンショット、PDF 生成など、さまざまなタスクを実行できます。

主な特徴

ヘッドレスブラウザコントロール: ブラウザインターフェイスを開かずにタスクを実行します。
クロスプラットフォーム: Windows、Linux、macOS をサポートします。
リッチ API: ユーザーの動作をシミュレートするためのリッチ API を提供します。

データスクレイピングに Puppeteer を使用する

基本的なプロセス

ブラウザを起動する: Puppeteer を使用してヘッドレスブラウザを起動します。
ページを開く: 新しいページインスタンスを作成し、ターゲット URL に移動します。
ページが読み込まれるまで待つ: ページが完全に読み込まれることを確認します。
コンテンツの取得: Puppeteer が提供する API を使用して、ページのコンテンツを取得します。
ログ: キャプチャされたコンテンツまたは関連情報をログファイルに記録します。
ブラウザを閉じる: タスクが完了したらブラウザを閉じます。

実装プロセス

Web ページ上のテーブルデータをクロールする必要があるとします。これを実現する手順は次のとおりです。

const puppeteer = require('puppeteer');
const http = require('http');

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

// 创建HTTP代理服务器
const proxy = http.createServer((req, res) =

技術共有