Compartilhamento de tecnologia

[Caso] ​​Pesquisa sobre ferramenta de reconhecimento OCR integrada em python

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I. Introdução

Porque o projeto requer capacidades de reconhecimento OCR e apoia a implantação privatizada. Este artigo irá comparar algumas ferramentas de reconhecimento de OCR de código aberto no mercado, selecionar o OCR que atende às necessidades do projeto e pesquisar/treinar ainda mais o modelo de OCR correspondente.
Os principais reconhecimentos de OCR são: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
Observações: As imagens a seguir são usadas para testes da seguinte forma
Adicione a descrição da imagem

2. Tesseract_OCR

Pillow é uma biblioteca de processamento de imagens gratuita e de código aberto que pode ser usada para ler, manipular e salvar uma variedade de arquivos de imagem. Tesseract-OCR é um poderoso mecanismo de reconhecimento óptico de caracteres que pode ser reconhecido offline e identificar com precisão o texto em imagens. Ele deve ser usado em conjunto com o arquivo tesseract-ocr.exe instalado localmente.
Recursos do Tesseract-OCR:

  • O Tesseract suporta o formato de codificação UTF-8 e pode reconhecer mais de 100 idiomas "prontos para uso"
  • Tesseract suporta vários formatos de saída: texto simples, hOCR (HTML), PDF, etc.
  • A recomendação oficial é que, para obter melhores resultados de OCR, é melhor fornecer imagens de alta qualidade
  • O Tesseract treina para reconhecer outros idiomas. Para métodos de treinamento específicos, consulte a documentação oficial: https://tesseract-ocr.github.io/tessdoc/.

2.1. Processo de instalação

Ambiente de instalação