[Fall] Forschung zum in Python integrierten OCR-Erkennungstool

2024-07-12

Inhaltsverzeichnis

I. Einleitung
2. Tesseract_OCR
- 2.1. Installationsprozess
- 2.2. Verwendung von Python-Code
3. PaddleOCR
- 3.1. Installationsprozess
- 3.2. Verwendung von Python-Code
4. EasyOCR
5. ddddOCR
6. CnOCR
7. Zusammenfassung

I. Einleitung

Denn das Projekt erfordert OCR-Erkennungsfähigkeiten und unterstützt den privatisierten Einsatz. In diesem Artikel werden einige Open-Source-OCR-Erkennungstools auf dem Markt verglichen, die OCR ausgewählt, die den Anforderungen des Projekts entspricht, und das entsprechende OCR-Modell weiter erforscht/trainiert.
Die wichtigsten OCR-Erkennungen sind: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
Anmerkungen: Die folgenden Bilder werden wie folgt zum Testen verwendet
Bitte fügen Sie eine Bildbeschreibung hinzu

2. Tesseract_OCR

Pillow ist eine kostenlose Open-Source-Bildverarbeitungsbibliothek, mit der eine Vielzahl von Bilddateien gelesen, bearbeitet und gespeichert werden können. Tesseract-OCR ist eine leistungsstarke optische Zeichenerkennungs-Engine, die offline erkannt und Text in Bildern genau identifizieren kann. Sie muss in Verbindung mit der lokal installierten Datei tesseract-ocr.exe verwendet werden.
Tesseract-OCR-Funktionen:

Tesseract unterstützt das UTF-8-Kodierungsformat und kann über 100 Sprachen „out of the box“ erkennen.
Tesseract unterstützt mehrere Ausgabeformate: Nur-Text, hOCR (HTML), PDF usw.
Die offizielle Empfehlung lautet, dass es am besten ist, qualitativ hochwertige Bilder bereitzustellen, um bessere OCR-Ergebnisse zu erzielen
Tesseract trainiert, um andere Sprachen zu erkennen. Informationen zu spezifischen Trainingsmethoden finden Sie in der offiziellen Dokumentation: https://tesseract-ocr.github.io/tessdoc/

2.1. Installationsprozess

Installationsumgebung：

Technologieaustausch