le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Anche ottenere dati in tabelle da file PDF è un compito che rientra facilmente nel lavoro d'ufficio quotidiano. Se ad esempio vogliamo ottenere i dati tabellari del report annuale di un'azienda, il PDF può facilmente contenere centinaia di pagine di dati.
Copiare uno per uno dalla tabella PDF e poi incollarlo nella tabella Excel è troppo inefficiente.
Diamo un'occhiata al mio metodo e a come risolverlo usando Python. Usa pdfplumber per leggere file PDF, estrarre automaticamente le tabelle su ogni pagina e scriverle in nuovi file Excel in un ciclo. L'idea è la stessa del metodo tradizionale, ma quanto tempo ci vuole? Non battere ciglio, devo solo premere il pulsante Esegui e tutte le operazioni verranno eseguite automaticamente. Tutti i file verranno generati e nominati automaticamente. Ne aprirò uno o due in modo casuale. Non c'è problema. .
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
Effetto di realizzazione: