Pura taulukon sisältö PDF-muodossa tiedostossa batches

Pura taulukon sisältö PDF-tiedostosta erissä

2024-07-12

1 tausta

Tietojen saaminen taulukoihin PDF-tiedostoista on myös helppo tehtävä jokapäiväisessä toimistotyössä. Jos esimerkiksi haluamme saada taulukkomuotoiset tiedot yrityksen vuosikertomukseen, PDF voi helposti sisältää satoja sivuja tietoa.

2 perinteistä menetelmää

Yksitellen kopioiminen PDF-taulukosta ja liittäminen Excel-taulukkoon on liian tehotonta.

3 Toimistoautomaatio

Katsotaanpa menetelmääni ja kuinka ratkaista se Pythonilla. Käytä pdfplumberia PDF-tiedostojen lukemiseen, kunkin sivun taulukoiden automaattiseen purkamiseen ja uusien Excel-tiedostojen kirjoittamiseen. Idea on sama kuin perinteisessä menetelmässä, mutta kuinka kauan se kestää? Älä räpytä silmiä, minun tarvitsee vain painaa ajopainiketta, ja kaikki toiminnot luodaan ja nimetään automaattisesti. Ne kaikki ovat tarkkoja. .

4 koodin toteutus


## 导入工具包
import pdfplumber
import pandas as pd
 
## 读取 PDF 文件
p = pdfplumber.open("./贵州茅台2019年年报.pdf")
 
# 选好读取全部页面
for i in range(len(p.pages)):
    ## 读取一页中全部表格
    tables = p.pages[i].extract_tables()
    print(f'第{i+1}页一共有{len(tables)}个表格') 
    for j in range(len(tables)):
        ## 生成表格
        df = pd.DataFrame(tables[j])
        ## 写入 Excel 文件
        df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')

Toteutusvaikutus:

Teknologian jakaminen

Pura taulukon sisältö PDF-tiedostosta erissä

1 tausta

2 perinteistä menetelmää

3 Toimistoautomaatio

4 koodin toteutus

henkilökohtainen profiili

yhteystietoni