Extraire le contenu du tableau au format PDF dans batches

Extraire le contenu du tableau du PDF par lots

2024-07-12

1. Origines

L'obtention de données sous forme de tableaux à partir de fichiers PDF est également une tâche qui s'implique facilement dans le travail de bureau quotidien. Par exemple, si nous souhaitons obtenir les données tabulaires du rapport annuel d’une entreprise, le PDF peut facilement contenir des centaines de pages de données.

2 méthodes traditionnelles

Copier un par un à partir du tableau PDF puis le coller dans le tableau Excel est trop inefficace.

3 Bureautique

Jetons un coup d'œil à ma méthode et comment la résoudre en utilisant Python. Utilisez pdfplumber pour lire des fichiers PDF, extraire automatiquement les tableaux de chaque page et les écrire dans de nouveaux fichiers Excel en boucle. L'idée est la même que la méthode traditionnelle, mais combien de temps cela prend-il ? Ne clignez pas des yeux, il me suffit d'appuyer sur le bouton Exécuter et toutes les opérations s'exécuteront automatiquement. Tous les fichiers seront automatiquement générés et nommés. J'en ouvrirai un ou deux au hasard pour vérifier qu'il n'y a aucun problème. .

4 implémentation du code


## 导入工具包
import pdfplumber
import pandas as pd
 
## 读取 PDF 文件
p = pdfplumber.open("./贵州茅台2019年年报.pdf")
 
# 选好读取全部页面
for i in range(len(p.pages)):
    ## 读取一页中全部表格
    tables = p.pages[i].extract_tables()
    print(f'第{i+1}页一共有{len(tables)}个表格') 
    for j in range(len(tables)):
        ## 生成表格
        df = pd.DataFrame(tables[j])
        ## 写入 Excel 文件
        df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')

Effet de réalisation :

Partage de technologie

Extraire le contenu du tableau du PDF par lots

1. Origines

2 méthodes traditionnelles

3 Bureautique

4 implémentation du code

Profil personnel

mes coordonnées