2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Tietojen saaminen taulukoihin PDF-tiedostoista on myös helppo tehtävä jokapäiväisessä toimistotyössä. Jos esimerkiksi haluamme saada taulukkomuotoiset tiedot yrityksen vuosikertomukseen, PDF voi helposti sisältää satoja sivuja tietoa.
Yksitellen kopioiminen PDF-taulukosta ja liittäminen Excel-taulukkoon on liian tehotonta.
Katsotaanpa menetelmääni ja kuinka ratkaista se Pythonilla. Käytä pdfplumberia PDF-tiedostojen lukemiseen, kunkin sivun taulukoiden automaattiseen purkamiseen ja uusien Excel-tiedostojen kirjoittamiseen. Idea on sama kuin perinteisessä menetelmässä, mutta kuinka kauan se kestää? Älä räpytä silmiä, minun tarvitsee vain painaa ajopainiketta, ja kaikki toiminnot luodaan ja nimetään automaattisesti. Ne kaikki ovat tarkkoja. .
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
Toteutusvaikutus: