[Caso] Investigación sobre la herramienta de reconocimiento OCR integrada en Python

2024-07-12

Tabla de contenido

I. Introducción
2. Teseracto_OCR
- 2.1. Proceso de instalación
- 2.2. Uso del código Python
3. PaddleOCR
- 3.1. Proceso de instalación
- 3.2. Uso del código Python
4. FácilOCR
5. ddddOCR
6. CnOCR
7. Resumen

I. Introducción

Porque el proyecto requiere capacidades de reconocimiento OCR y admite una implementación privatizada. Este artículo comparará algunas herramientas de reconocimiento de OCR de código abierto en el mercado, seleccionará el OCR que se adapte a las necesidades del proyecto y seguirá investigando/entrenando el modelo de OCR correspondiente.
Los principales reconocimientos de OCR son: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
Observaciones: Las siguientes imágenes se utilizan para las pruebas de la siguiente manera
Por favor agregue la descripción de la imagen.

2. Teseracto_OCR

Pillow es una biblioteca de procesamiento de imágenes gratuita y de código abierto que se puede utilizar para leer, manipular y guardar una variedad de archivos de imágenes. Tesseract-OCR es un potente motor de reconocimiento óptico de caracteres que puede reconocerse sin conexión e identificar con precisión el texto en las imágenes. Debe usarse junto con el archivo tesseract-ocr.exe instalado localmente.
Características de Tesseract-OCR:

Tesseract admite el formato de codificación UTF-8 y puede reconocer más de 100 idiomas "listos para usar"
Tesseract admite múltiples formatos de salida: texto sin formato, hOCR (HTML), PDF, etc.
La recomendación oficial es que para obtener mejores resultados de OCR, lo mejor es proporcionar imágenes de alta calidad.
Tesseract se entrena para reconocer otros idiomas. Para conocer métodos de entrenamiento específicos, consulte la documentación oficial: https://tesseract-ocr.github.io/tessdoc/.

2.1. Proceso de instalación

Entorno de instalación：

Compartir tecnología