informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Memperoleh data dalam tabel dari file PDF juga merupakan tugas yang mudah dilakukan dalam pekerjaan kantor sehari-hari. Misalnya, jika kita ingin mendapatkan data tabular dalam laporan tahunan suatu perusahaan, PDF dapat dengan mudah memuat ratusan halaman data.
Menyalin satu per satu dari tabel PDF lalu menempelkannya ke tabel Excel terlalu tidak efisien.
Mari kita lihat metode saya dan cara mengatasinya menggunakan Python. Gunakan pdfplumber untuk membaca file PDF, secara otomatis mengekstrak tabel di setiap halaman, dan menulisnya ke dalam file Excel baru dalam satu lingkaran. Jangan berkedip, saya hanya perlu menekan tombol run, dan semua operasi akan berjalan secara otomatis. Semua file akan dibuat dan diberi nama secara otomatis. Saya akan membuka satu atau dua secara acak untuk memeriksa. .
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
Efek realisasi: