Extrahieren Sie Tabelleninhalte im PDF-Format in „batches

Extrahieren Sie Tabelleninhalte stapelweise aus PDF

2024-07-12

1. Hintergrund

Auch die Gewinnung tabellarischer Daten aus PDF-Dateien ist eine Aufgabe, die problemlos in die tägliche Büroarbeit eingebunden werden kann. Wenn wir beispielsweise die tabellarischen Daten im Geschäftsbericht eines Unternehmens erhalten möchten, kann das PDF leicht Hunderte von Seiten mit Daten enthalten.

2 traditionelle Methoden

Das einzelne Kopieren aus der PDF-Tabelle und das anschließende Einfügen in die Excel-Tabelle ist zu ineffizient.

3 Büroautomation

Werfen wir einen Blick auf meine Methode und wie ich sie mit Python lösen kann. Verwenden Sie pdfplumber, um PDF-Dateien zu lesen, die Tabellen auf jeder Seite automatisch zu extrahieren und sie in einer Schleife in neue Excel-Dateien zu schreiben. Die Idee ist die gleiche wie bei der herkömmlichen Methode, aber wie lange dauert es? Nicht blinzeln, ich muss nur die Schaltfläche „Ausführen“ drücken, und alle Vorgänge werden automatisch generiert und benannt. Es gibt kein Problem. .

4 Code-Implementierung


## 导入工具包
import pdfplumber
import pandas as pd
 
## 读取 PDF 文件
p = pdfplumber.open("./贵州茅台2019年年报.pdf")
 
# 选好读取全部页面
for i in range(len(p.pages)):
    ## 读取一页中全部表格
    tables = p.pages[i].extract_tables()
    print(f'第{i+1}页一共有{len(tables)}个表格') 
    for j in range(len(tables)):
        ## 生成表格
        df = pd.DataFrame(tables[j])
        ## 写入 Excel 文件
        df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')

Realisierungseffekt:

Technologieaustausch

Extrahieren Sie Tabelleninhalte stapelweise aus PDF

1. Hintergrund

2 traditionelle Methoden

3 Büroautomation

4 Code-Implementierung

Persönliches Profil

meine Kontaktdaten