Technologieaustausch

[Fall] ​​Forschung zum in Python integrierten OCR-Erkennungstool

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I. Einleitung

Denn das Projekt erfordert OCR-Erkennungsfähigkeiten und unterstützt den privatisierten Einsatz. In diesem Artikel werden einige Open-Source-OCR-Erkennungstools auf dem Markt verglichen, die OCR ausgewählt, die den Anforderungen des Projekts entspricht, und das entsprechende OCR-Modell weiter erforscht/trainiert.
Die wichtigsten OCR-Erkennungen sind: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
Anmerkungen: Die folgenden Bilder werden wie folgt zum Testen verwendet
Bitte fügen Sie eine Bildbeschreibung hinzu

2. Tesseract_OCR

Pillow ist eine kostenlose Open-Source-Bildverarbeitungsbibliothek, mit der eine Vielzahl von Bilddateien gelesen, bearbeitet und gespeichert werden können. Tesseract-OCR ist eine leistungsstarke optische Zeichenerkennungs-Engine, die offline erkannt und Text in Bildern genau identifizieren kann. Sie muss in Verbindung mit der lokal installierten Datei tesseract-ocr.exe verwendet werden.
Tesseract-OCR-Funktionen:

  • Tesseract unterstützt das UTF-8-Kodierungsformat und kann über 100 Sprachen „out of the box“ erkennen.
  • Tesseract unterstützt mehrere Ausgabeformate: Nur-Text, hOCR (HTML), PDF usw.
  • Die offizielle Empfehlung lautet, dass es am besten ist, qualitativ hochwertige Bilder bereitzustellen, um bessere OCR-Ergebnisse zu erzielen
  • Tesseract trainiert, um andere Sprachen zu erkennen. Informationen zu spezifischen Trainingsmethoden finden Sie in der offiziellen Dokumentation: https://tesseract-ocr.github.io/tessdoc/

2.1. Installationsprozess

Installationsumgebung