Compartir tecnología

[Caso] ​​Investigación sobre la herramienta de reconocimiento OCR integrada en Python

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I. Introducción

Porque el proyecto requiere capacidades de reconocimiento OCR y admite una implementación privatizada. Este artículo comparará algunas herramientas de reconocimiento de OCR de código abierto en el mercado, seleccionará el OCR que se adapte a las necesidades del proyecto y seguirá investigando/entrenando el modelo de OCR correspondiente.
Los principales reconocimientos de OCR son: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
Observaciones: Las siguientes imágenes se utilizan para las pruebas de la siguiente manera
Por favor agregue la descripción de la imagen.

2. Teseracto_OCR

Pillow es una biblioteca de procesamiento de imágenes gratuita y de código abierto que se puede utilizar para leer, manipular y guardar una variedad de archivos de imágenes. Tesseract-OCR es un potente motor de reconocimiento óptico de caracteres que puede reconocerse sin conexión e identificar con precisión el texto en las imágenes. Debe usarse junto con el archivo tesseract-ocr.exe instalado localmente.
Características de Tesseract-OCR:

  • Tesseract admite el formato de codificación UTF-8 y puede reconocer más de 100 idiomas "listos para usar"
  • Tesseract admite múltiples formatos de salida: texto sin formato, hOCR (HTML), PDF, etc.
  • La recomendación oficial es que para obtener mejores resultados de OCR, lo mejor es proporcionar imágenes de alta calidad.
  • Tesseract se entrena para reconocer otros idiomas. Para conocer métodos de entrenamiento específicos, consulte la documentación oficial: https://tesseract-ocr.github.io/tessdoc/.

2.1. Proceso de instalación

Entorno de instalación