私の連絡先情報
郵便メール:
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
PDF ファイルから表のデータを取得することは、日常のオフィス業務でも簡単に実行できるタスクです。たとえば、会社の年次報告書の表形式のデータを取得したい場合、PDF には簡単に数百ページのデータが含まれる可能性があります。
PDF の表から 1 つずつコピーして Excel の表に貼り付けるのは非効率すぎます。
私の方法とPythonを使用してそれを解決する方法を見てみましょう。 pdfplumber を使用して PDF ファイルを読み取り、各ページの表を自動的に抽出し、ループで新しい Excel ファイルに書き込むという考え方は従来の方法と同じですが、どれくらい時間がかかりますか?瞬きしないでください。実行ボタンを押すだけで、すべてのファイルが自動的に生成され、名前が付けられます。それらはすべて正確です。 。
- ## 导入工具包
- import pdfplumber
- import pandas as pd
-
- ## 读取 PDF 文件
- p = pdfplumber.open("./贵州茅台2019年年报.pdf")
-
- # 选好读取全部页面
- for i in range(len(p.pages)):
- ## 读取一页中全部表格
- tables = p.pages[i].extract_tables()
- print(f'第{i+1}页一共有{len(tables)}个表格')
- for j in range(len(tables)):
- ## 生成表格
- df = pd.DataFrame(tables[j])
- ## 写入 Excel 文件
- df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')
実現効果: