2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Auch die Gewinnung tabellarischer Daten aus PDF-Dateien ist eine Aufgabe, die problemlos in die tägliche Büroarbeit eingebunden werden kann. Wenn wir beispielsweise die tabellarischen Daten im Geschäftsbericht eines Unternehmens erhalten möchten, kann das PDF leicht Hunderte von Seiten mit Daten enthalten.
Das einzelne Kopieren aus der PDF-Tabelle und das anschließende Einfügen in die Excel-Tabelle ist zu ineffizient.
Werfen wir einen Blick auf meine Methode und wie ich sie mit Python lösen kann. Verwenden Sie pdfplumber, um PDF-Dateien zu lesen, die Tabellen auf jeder Seite automatisch zu extrahieren und sie in einer Schleife in neue Excel-Dateien zu schreiben. Die Idee ist die gleiche wie bei der herkömmlichen Methode, aber wie lange dauert es? Nicht blinzeln, ich muss nur die Schaltfläche „Ausführen“ drücken, und alle Vorgänge werden automatisch generiert und benannt. Es gibt kein Problem. .
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
Realisierungseffekt: