技術共有

【事例】Python統合型OCR認識ツールの研究

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I.はじめに

このプロジェクトには OCR 認識機能が必要であり、民営化された展開をサポートしているためです。この記事では、市販されているいくつかのオープンソース OCR 認識ツールを比較し、プロジェクトのニーズに合った OCR を選択し、対応する OCR モデルをさらに調査/トレーニングします。
主な OCR 認識は次のとおりです: Tesseract_OCR、PaddleOCR、EasyOCR、dddd_ocr、CnOCR
注: 以下の写真は、次のテストに使用されます。
画像の説明を追加してください

2. Tesseract_OCR

Pillow は、さまざまな画像ファイルの読み取り、操作、保存に使用できる無料のオープンソース画像処理ライブラリです。 Tesseract-OCR は、オフラインで認識でき、画像内のテキストを正確に識別できる強力な光学式文字認識エンジンです。ローカルにインストールされた tesseract-ocr.exe ファイルと組み合わせて使用​​する必要があります。
Tesseract-OCR の機能:

  • Tesseract は UTF-8 エンコード形式をサポートしており、すぐに 100 を超える言語を認識できます。
  • Tesseract は、プレーン テキスト、hOCR (HTML)、PDF などの複数の出力形式をサポートしています。
  • 公式推奨では、より良い OCR 結果を得るには、高品質の画像を提供することが最善です。
  • Tesseract は他の言語を認識するようにトレーニングします。具体的なトレーニング方法については、公式ドキュメントを参照してください: https://tesseract-ocr.github.io/tessdoc/

2.1. インストールプロセス

設置環境