Κοινή χρήση τεχνολογίας

Εξαγωγή περιεχομένων πίνακα από PDF σε παρτίδες

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1 φόντο

Η λήψη δεδομένων σε πίνακες από αρχεία PDF είναι επίσης μια εργασία που εμπλέκεται εύκολα στην καθημερινή εργασία γραφείου. Για παράδειγμα, εάν θέλουμε να λάβουμε τα δεδομένα σε πίνακα στην ετήσια έκθεση μιας εταιρείας, το PDF μπορεί εύκολα να περιέχει εκατοντάδες σελίδες δεδομένων.

2 παραδοσιακές μέθοδοι

Η αντιγραφή ένα προς ένα από τον πίνακα PDF και στη συνέχεια η επικόλλησή του στον πίνακα του Excel είναι πολύ αναποτελεσματική.

3 Αυτοματισμός γραφείου

Ας ρίξουμε μια ματιά στη μέθοδό μου και πώς να την λύσω χρησιμοποιώντας Python. Χρησιμοποιήστε το pdfplumber για να διαβάσετε αρχεία PDF, να εξαγάγετε αυτόματα τους πίνακες σε κάθε σελίδα και να τους γράψετε σε νέα αρχεία Excel σε βρόχο Η ιδέα είναι η ίδια με την παραδοσιακή μέθοδο, αλλά πόσος χρόνος χρειάζεται; Μην αναβοσβήνει, απλά πρέπει να πατήσω το κουμπί εκτέλεσης, και όλες οι λειτουργίες θα δημιουργηθούν αυτόματα και θα ονομαστούν τυχαία. Δεν υπάρχει πρόβλημα. .

4 υλοποίηση κώδικα

  1. ## 导入工具包
  2. import pdfplumber
  3. import pandas as pd
  4. ## 读取 PDF 文件
  5. p = pdfplumber.open("./贵州茅台2019年年报.pdf")
  6. # 选好读取全部页面
  7. for i in range(len(p.pages)):
  8. ## 读取一页中全部表格
  9. tables = p.pages[i].extract_tables()
  10. print(f'第{i+1}页一共有{len(tables)}个表格')
  11. for j in range(len(tables)):
  12. ## 生成表格
  13. df = pd.DataFrame(tables[j])
  14. ## 写入 Excel 文件
  15. df.to_excel(f'./贵州茅台2019年年报_第{i+1}页_第{j+1}张表.xlsx')

Επίδραση πραγματοποίησης: