2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
L'obtention de données sous forme de tableaux à partir de fichiers PDF est également une tâche qui s'implique facilement dans le travail de bureau quotidien. Par exemple, si nous souhaitons obtenir les données tabulaires du rapport annuel d’une entreprise, le PDF peut facilement contenir des centaines de pages de données.
Copier un par un à partir du tableau PDF puis le coller dans le tableau Excel est trop inefficace.
Jetons un coup d'œil à ma méthode et comment la résoudre en utilisant Python. Utilisez pdfplumber pour lire des fichiers PDF, extraire automatiquement les tableaux de chaque page et les écrire dans de nouveaux fichiers Excel en boucle. L'idée est la même que la méthode traditionnelle, mais combien de temps cela prend-il ? Ne clignez pas des yeux, il me suffit d'appuyer sur le bouton Exécuter et toutes les opérations s'exécuteront automatiquement. Tous les fichiers seront automatiquement générés et nommés. J'en ouvrirai un ou deux au hasard pour vérifier qu'il n'y a aucun problème. .
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
Effet de réalisation :