기술나눔

[사례] Python 통합 OCR 인식 도구 연구

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I. 소개

이 프로젝트에는 OCR 인식 기능이 필요하고 민영화된 배포를 지원하기 때문입니다. 이 기사에서는 시중의 일부 오픈 소스 OCR 인식 도구를 비교하고, 프로젝트 요구 사항에 맞는 OCR을 선택하고, 해당 OCR 모델을 추가로 연구/훈련합니다.
주요 OCR 인식은 Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR입니다.
비고: 다음 사진은 다음과 같이 테스트에 사용됩니다.
이미지 설명을 추가해주세요

2. 테서랙트_OCR

Pillow는 다양한 이미지 파일을 읽고, 조작하고, 저장하는 데 사용할 수 있는 무료 오픈 소스 이미지 처리 라이브러리입니다. Tesseract-OCR은 오프라인에서 인식하고 이미지의 텍스트를 정확하게 식별할 수 있는 강력한 광학 문자 인식 엔진입니다. 로컬에 설치된 tesseract-ocr.exe 파일과 함께 사용해야 합니다.
Tesseract-OCR 기능:

  • Tesseract는 UTF-8 인코딩 형식을 지원하며 "즉시" 100개 이상의 언어를 인식할 수 있습니다.
  • Tesseract는 일반 텍스트, hOCR(HTML), PDF 등 다양한 출력 형식을 지원합니다.
  • 공식적인 권장 사항은 더 나은 OCR 결과를 얻으려면 고품질 이미지를 제공하는 것이 가장 좋다는 것입니다.
  • Tesseract는 다른 언어를 인식하도록 훈련합니다. 구체적인 훈련 방법은 공식 문서(https://tesseract-ocr.github.io/tessdoc/)를 참조하세요.

2.1. 설치 과정

설치환경