Ekstrak isi tabel dalam PDF di batches

Ekstrak isi tabel dari PDF secara berkelompok

2024-07-12

1 latar belakang

Memperoleh data dalam tabel dari file PDF juga merupakan tugas yang mudah dilakukan dalam pekerjaan kantor sehari-hari. Misalnya, jika kita ingin mendapatkan data tabular dalam laporan tahunan suatu perusahaan, PDF dapat dengan mudah memuat ratusan halaman data.

2 metode tradisional

Menyalin satu per satu dari tabel PDF lalu menempelkannya ke tabel Excel terlalu tidak efisien.

3 Otomatisasi kantor

Mari kita lihat metode saya dan cara mengatasinya menggunakan Python. Gunakan pdfplumber untuk membaca file PDF, secara otomatis mengekstrak tabel di setiap halaman, dan menulisnya ke dalam file Excel baru dalam satu lingkaran. Jangan berkedip, saya hanya perlu menekan tombol run, dan semua operasi akan berjalan secara otomatis. Semua file akan dibuat dan diberi nama secara otomatis. Saya akan membuka satu atau dua secara acak untuk memeriksa. .

4 implementasi kode


## 导入工具包
import pdfplumber
import pandas as pd
 
## 读取 PDF 文件
p = pdfplumber.open("./贵州茅台2019年年报.pdf")
 
# 选好读取全部页面
for i in range(len(p.pages)):
    ## 读取一页中全部表格
    tables = p.pages[i].extract_tables()
    print(f'第{i+1}页一共有{len(tables)}个表格') 
    for j in range(len(tables)):
        ## 生成表格
        df = pd.DataFrame(tables[j])
        ## 写入 Excel 文件
        df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')

Efek realisasi:

Berbagi teknologi

Ekstrak isi tabel dari PDF secara berkelompok

1 latar belakang

2 metode tradisional

3 Otomatisasi kantor

4 implementasi kode

Profil pribadi

informasi kontak saya