Обмен технологиями

[Кейс] Исследование интегрированного в Python инструмента распознавания OCR

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Введение

Потому что проект требует возможностей распознавания OCR и поддерживает приватизированное развертывание. В этой статье мы сравним некоторые доступные на рынке инструменты распознавания OCR с открытым исходным кодом, выберем OCR, соответствующий потребностям проекта, и проведем дальнейшее исследование/обучение соответствующей модели OCR.
Основные способы распознавания OCR: Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR.
Примечания: Следующие изображения используются для тестирования следующим образом.
Пожалуйста, добавьте описание изображения

2. Тессеракт_OCR

Pillow — это бесплатная библиотека обработки изображений с открытым исходным кодом, которую можно использовать для чтения, управления и сохранения различных файлов изображений. Tesseract-OCR — это мощный механизм оптического распознавания символов, который можно распознавать в автономном режиме и точно идентифицировать текст на изображениях. Его необходимо использовать вместе с локально установленным файлом tesseract-ocr.exe.
Возможности Tesseract-OCR:

  • Tesseract поддерживает формат кодировки UTF-8 и может распознавать более 100 языков «из коробки».
  • Tesseract поддерживает несколько форматов вывода: обычный текст, hOCR (HTML), PDF и т. д.
  • Официальная рекомендация заключается в том, что для получения лучших результатов распознавания лучше всего предоставлять изображения высокого качества.
  • Tesseract обучает распознаванию других языков. Конкретные методы обучения можно найти в официальной документации: https://tesseract-ocr.github.io/tessdoc/.

2.1. Процесс установки.

Среда установки