प्रौद्योगिकी साझेदारी

[प्रकरणम्] पायथन् एकीकृत OCR मान्यतासाधनस्य विषये शोधः

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I. परिचयः

यतः परियोजनायाः कृते OCR मान्यताक्षमता आवश्यकी अस्ति तथा च निजीकृतनियोजनस्य समर्थनं करोति। अयं लेखः विपण्यां केषाञ्चन मुक्तस्रोतस्य OCR-परिचयसाधनानाम् तुलनां करिष्यति, परियोजनायाः आवश्यकतानुसारं OCR चयनं करिष्यति, तदनुरूपं OCR-प्रतिरूपं च अग्रे शोधं/प्रशिक्षणं करिष्यति
मुख्यानि ओसीआर-मान्यताः सन्ति : Tesseract_OCR, PaddleOCR, EasyOCR, dddd_ocr, CnOCR
टिप्पणी : परीक्षणार्थं निम्नलिखितचित्रं निम्नलिखितरूपेण उपयुज्यते
कृपया चित्रविवरणं योजयन्तु

2. टेसेराक्ट_ओसीआर

Pillow इति एकं मुक्तं मुक्तस्रोतं च चित्रसंसाधनपुस्तकालयं यस्य उपयोगेन विविधानि चित्रसञ्चिकाः पठितुं, परिवर्तनं कर्तुं, रक्षितुं च शक्यन्ते । Tesseract-OCR एकं शक्तिशाली ऑप्टिकल वर्णपरिचयइञ्जिनं भवति यत् अफलाइनरूपेण ज्ञातुं शक्यते तथा च चित्रेषु पाठस्य सटीकपरिचयः कर्तुं शक्यते तस्य उपयोगः स्थानीयतया संस्थापितायाः tesseract-ocr.exe सञ्चिकायाः ​​सह संयोजनेन करणीयम्।
Tesseract-OCR विशेषताः : १.

  • Tesseract UTF-8 एन्कोडिंग् प्रारूपं समर्थयति तथा च "out of the box" 100 तः अधिकानि भाषाः ज्ञातुं शक्नोति ।
  • Tesseract बहुविधं आउटपुट् प्रारूपं समर्थयति: सादा पाठः, hOCR (HTML), PDF इत्यादयः ।
  • आधिकारिकं अनुशंसा अस्ति यत् उत्तमं OCR परिणामं प्राप्तुं उच्चगुणवत्तायुक्तानि चित्राणि प्रदातुं सर्वोत्तमम्
  • Tesseract अन्यभाषां ज्ञातुं प्रशिक्षयति विशिष्टप्रशिक्षणविधिषु कृपया आधिकारिकदस्तावेजं पश्यन्तु: https://tesseract-ocr.github.io/tessdoc/।

2.1.स्थापनप्रक्रिया

संस्थापनपर्यावरणम्