私の連絡先情報
郵便メール:
2024-07-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
この PDF は、視覚認識の基本知識がまったくないまったくの初心者 Windows ユーザーに適しています。ボス、寄り道してください~~
知らせ:
このプロジェクトの PDF の OCR は、表、描画テキスト、透かしなどの干渉に対する処理を一切行いません。そのため、この機能を使用する PDF にはこれらの干渉項目が影響を避けるためにできるだけ含まれないことを願っています。翻訳効果。
condaを使用して仮想Python環境を作成する
conda crate -n pp python==3.11
パドルとパドルOCRをインストールする
GPUのバージョン
pip インストール paddlepaddle-gpu paddleocr
CPUのバージョン
pip インストール paddlepaddle paddleocr
PDFから画像へのツール
https://github.com/oschwartz10612/poppler-windows/releases
pip で pdf2image をインストールします
pdfs フォルダーに多数の pdf ファイルがあり、各 pdf ファイルを対応する txt ファイルに変換する必要があるとします。次のコードを使用できます
from pdf2image import convert_from_path
import cv2
import numpy as np
from PIL import Image
import os
# 将 PDF 文件转换为图片列表
files = os.listdir('pdf')
for file in files:
if not file.endswith('.pdf'):
print(file)
continue
txt = file.replace('.pdf', '.txt')
if os.path.exists('txt/' txt):
continue
txt_writer = open('txt/' txt, 'w',encoding='utf-8')
images = convert_from_path('pdf/' file)
# print(type(images))
# print(images[0])
# image = cv2.cvtColor(np.array(images[0]), cv2.COLOR_RGB2BGR)
from paddleocr import PaddleOCR, draw_ocr
# 创建 PaddleOCR 实例
ocr = PaddleOCR(use_angle_cls=True, lang='ch',use_gpu=True) # 默认使用英文模型,可以通过 lang 参数切换到中文模型
# 遍历每一张图片并识别文字
for i, image in enumerate(images):
print('第{}张图片'.format(i 1))
# 转换图片为可用于识别的格式
# source = image.convert('RGB')
image = cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR) # image.save(f'page_{i}.jpg')
# 识别图片中的文字
result = ocr.ocr(image, cls=True)
# 打印识别结果
try:
for lines in result:
for line in lines:
# print(line[1][0])
txt_writer.write(line[1][0] 'n')
except:
print(file '识别失败')
txt_writer.close()
このコードは単純にPDFのテキストを抽出するだけなので、画像や表が生成されるとページの認識効果が低下しますのでご了承ください。