प्रौद्योगिकी साझेदारी

Elasticsearch प्रासंगिकतास्कोरिंग् (TF-IDF, BM25, इत्यादयः) अवगच्छति ।

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Elasticsearch इत्यस्मिन् प्रासंगिकतास्कोरिंग् अन्वेषणकार्यस्य मूलं भवति, यत् अन्वेषणपरिणामानां गुणवत्तां श्रेणीं च निर्धारयति । Elasticsearch प्रासंगिकतास्कोरस्य गणनां कथं करोति इति अवगन्तुं, विशेषतः TF-IDF तथा BM25 एल्गोरिदम्, अन्वेषणप्रदर्शनस्य परिणामस्य च अनुकूलनार्थं महत्त्वपूर्णम् अस्ति अस्मिन् लेखे एतयोः अल्गोरिदम्योः गहनतया अवलोकनं भविष्यति तथा च Elasticsearch इत्यस्मिन् तेषां अनुप्रयोगः ।

1. प्रासंगिकतास्कोरिंगस्य परिचयः

प्रासंगिकतास्कोरः अन्वेषणपरिणामः उपयोक्तुः प्रश्नेन सह कियत् सम्यक् मेलति इति मापः । Elasticsearch प्रत्येकस्य दस्तावेजस्य प्रश्नस्य च प्रासंगिकतास्कोरस्य गणनाय जटिलस्य एल्गोरिदमस्य उपयोगं करोति । ई-वाणिज्यजालस्थलेषु ज्ञानाधारेषु च इत्यादिषु अनुप्रयोगपरिदृश्येषु प्रासंगिकतास्कोरः प्रत्यक्षतया निर्धारयति यत् उपयोक्तारः शीघ्रमेव आवश्यकसूचनाः अन्वेष्टुं शक्नुवन्ति वा इति

2. TF-IDF एल्गोरिदम्

२.१ परिभाषा सिद्धान्तः च

TF-IDF (Term Frequency-Inverse Document Frequency) इति एकः क्लासिकः सूचनापुनर्प्राप्ति-एल्गोरिदम् अस्ति यस्य उपयोगः दस्तावेजसमूहस्य अथवा कोर्पस्-मध्ये दस्तावेजेषु एकस्य शब्दस्य महत्त्वस्य मूल्याङ्कनार्थं भवति अस्य द्वौ भागौ स्तः- १.

  • टीएफ (अवधि आवृत्ति) . : शब्दावृत्तिः अर्थात् दस्तावेजे कियत्वारं शब्दः दृश्यते । गणनासूत्रं अस्ति : TF = (दस्तावेजे शब्दः कियत्वारं दृश्यते) / (दस्तावेजे शब्दानां कुलसंख्या) ।
  • IDF(उलट दस्तावेज आवृत्ति) . : विलोमदस्तावेज आवृत्तिः अर्थात् दस्तावेजसङ्ग्रहे शब्दस्य सामान्यं महत्त्वम् । गणनासूत्रं अस्ति: IDF = log((दस्तावेजसङ्ग्रहे दस्तावेजानां कुलसंख्या) / (शब्दयुक्तानां दस्तावेजानां संख्या + 1)) ।

२.२ लाभहानिः

TF-IDF एल्गोरिदम् सरलं कुशलं च अस्ति, परन्तु तस्य स्पष्टाः सीमाः अपि सन्ति । यथा, दस्तावेजदीर्घता, अन्वेषणपदस्थानम् इत्यादीन् कारकं न विचारयति, उच्चावृत्तिशब्दानां अतिप्रधानतां च ददाति ।

3. BM25 एल्गोरिदम्

३.१ परिभाषा सिद्धान्तः च

BM25 (Best Matching 25) एल्गोरिदम् TF-IDF एल्गोरिदम् इत्यस्य सुधारः विस्तारश्च अस्ति यत् प्रासंगिकतास्कोरस्य गणनायां अधिककारकाणां परिचयं करोति, यथा दस्तावेजस्य दीर्घता, अन्वेषणपदस्य स्थितिः च BM25 एल्गोरिदम् इत्यस्य मुख्यं उद्देश्यं पुनर्प्राप्तिपरिणामानां गुणवत्तां सुधारयितुम् अस्ति, विशेषतः बृहत्-परिमाणस्य दस्तावेजसङ्ग्रहस्य व्यवहारे

BM25 एल्गोरिदम् इत्यस्य मूलसूत्रं अस्ति :

[
पाठ {स्कोर} (डी, क्यू) = योग_{i = 1} ^ {n} पाठ {आईडीएफ} (q_i) cdot frac {f (q_i, D) cdot (k_1 + 1)}} च (q_i, D) + k_1 cdot (1 - b + b cdot frac{|D|}{पाठ{avgdl}})}
]

इत्यस्मिन्‌, डी.डी दस्तावेजस्य प्रतिनिधित्वं करोति, . QQप्र प्रश्नस्य प्रतिनिधित्वं करोति, . qi q_iqअहम्‌ प्रश्ने पदानाम् प्रतिनिधित्वं करोति, च ( qi , D ) f(q_i, D) .(qअहम्‌,) शाब्दिकवस्तूनि सूचयति qi q_iqअहम्‌दस्तावेजीकरणे डी.डीआवृत्तिः in, . ∣ द ∣ |द| दस्तावेजस्य प्रतिनिधित्वं कुर्वन्तु डी.डीदैर्घ्यम्‌, avgdl text{avgdl} २.avgdl दस्तावेजसङ्ग्रहे सर्वेषां दस्तावेजानां औसतदीर्घतां प्रतिनिधियति, क १ क_१k1 तथा bb समायोज्यः पैरामीटर् अस्ति ।

३.२ लाभहानिः

BM25 एल्गोरिदम् इत्यस्य TF-IDF एल्गोरिदम् इत्यस्य अपेक्षया निम्नलिखितलाभाः सन्ति ।

  • दस्तावेजदीर्घता सामान्यीकरणं: शब्दावृत्तौ दस्तावेजदीर्घतायाः पतलाकरणप्रभावं विचारयति।
  • शब्द आवृत्ति संतृप्ति समायोजन: शब्दावृत्तेः संतृप्तिं समायोजयितुं लघुगणकीयकार्यं प्रवर्तयित्वा उच्चावृत्तिशब्देषु अतिप्रधानं परिहृतं भवति ।
  • दस्तावेज आवृत्ति संतृप्ति: दस्तावेजावृत्तिः प्रभावं समायोजयितुं दस्तावेजावृत्तिः संतृप्तिकारकः प्रवर्तते ।

परन्तु BM25 एल्गोरिदम् इत्यस्य जटिलता अपि अस्ति, उत्तमं परिणामं प्राप्तुं बहुविधमापदण्डानां समायोजनं आवश्यकम् ।

4. Elasticsearch इत्यस्मिन् अनुप्रयोगाः

४.१ संस्करणभेदाः

Elasticsearch संस्करण 5.0 इत्यस्मात् पूर्वं प्रासंगिकतास्कोरिंग् कृते पूर्वनिर्धारितरूपेण TF-IDF एल्गोरिदम् उपयुज्यते स्म । संस्करण 5.0 तः आरभ्य Elasticsearch पूर्वनिर्धारितरूपेण BM25 एल्गोरिदम् इत्यस्य उपयोगं करोति यतः व्यावहारिक-अनुप्रयोगेषु उत्तमं प्रदर्शनं करोति ।

४.२ त्रुटिनिवारणं अनुकूलनं च

Elasticsearch कथं दस्तावेजस्य प्रासंगिकतास्कोरं प्रश्नाय गणयति इति अन्वेषणार्थं भवान् उपयोक्तुं शक्नोति_explain एपिआइ। एतत् एपिआइ दस्तावेजे प्रत्येकस्य प्रश्नपदस्य स्कोरस्य व्याख्यां प्रत्यागन्तुं शक्नोति, यत्र तस्य व्यक्तिगतघटकाः (यथा उपप्रश्नाः, कारकाः, सामान्यीकरणं इत्यादयः) समग्रस्कोरे तेषां विशिष्टं योगदानं च समाविष्टम् अस्ति

यथा, विशिष्टप्रश्नस्य कृते TF-IDF अथवा BM25 स्कोरं द्रष्टुं भवान् निम्नलिखित-आदेशस्य उपयोगं कर्तुं शक्नोति:

GET /my_index/_search
{
  "explain": true,
  "query": {
    "match": {
      "text": "this is the first document"
    }
  }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

४.३ व्यावहारिकप्रयोगपरिदृश्यानि

ई-वाणिज्यजालस्थले उपयोक्तारः अन्वेषणार्थं "मोबाइलफोन" इति कीवर्डं प्रविष्टुं शक्नुवन्ति । Elasticsearch "मोबाइलफोन" युक्तानां सर्वेषां दस्तावेजानां अनुक्रमणिकां करिष्यति तथा च BM25 एल्गोरिदम् इत्यस्य उपयोगेन तेषां प्रासंगिकतास्कोरस्य गणनां करिष्यति । उच्चाङ्कयुक्ताः दस्तावेजाः अन्वेषणपरिणामेषु अधिकं स्थानं प्राप्नुवन्ति, येन उपयोक्तृअनुभवः सुधरति ।

5. सारांशः

Elasticsearch इत्यस्य प्रासंगिकतास्कोरिंग् तन्त्रं जटिल-एल्गोरिदम्-आधारितम् अस्ति, येषु TF-IDF तथा BM25 एल्गोरिदम् इत्येतौ द्वौ महत्त्वपूर्णौ स्कोरिंग् एल्गोरिदम् स्तः । एतेषां एल्गोरिदम्स् इत्यस्य सिद्धान्तानां अनुप्रयोगानाञ्च अवगमनं Elasticsearch इत्यस्य अन्वेषणप्रदर्शनस्य परिणामस्य च अनुकूलनार्थं महत्त्वपूर्णम् अस्ति ।एल्गोरिदम् पैरामीटर्स् समायोजयित्वा उपयोगेन च_explain त्रुटिनिवारणार्थं एपिआइ, .