2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Elasticsearch इत्यस्मिन् प्रासंगिकतास्कोरिंग् अन्वेषणकार्यस्य मूलं भवति, यत् अन्वेषणपरिणामानां गुणवत्तां श्रेणीं च निर्धारयति । Elasticsearch प्रासंगिकतास्कोरस्य गणनां कथं करोति इति अवगन्तुं, विशेषतः TF-IDF तथा BM25 एल्गोरिदम्, अन्वेषणप्रदर्शनस्य परिणामस्य च अनुकूलनार्थं महत्त्वपूर्णम् अस्ति अस्मिन् लेखे एतयोः अल्गोरिदम्योः गहनतया अवलोकनं भविष्यति तथा च Elasticsearch इत्यस्मिन् तेषां अनुप्रयोगः ।
प्रासंगिकतास्कोरः अन्वेषणपरिणामः उपयोक्तुः प्रश्नेन सह कियत् सम्यक् मेलति इति मापः । Elasticsearch प्रत्येकस्य दस्तावेजस्य प्रश्नस्य च प्रासंगिकतास्कोरस्य गणनाय जटिलस्य एल्गोरिदमस्य उपयोगं करोति । ई-वाणिज्यजालस्थलेषु ज्ञानाधारेषु च इत्यादिषु अनुप्रयोगपरिदृश्येषु प्रासंगिकतास्कोरः प्रत्यक्षतया निर्धारयति यत् उपयोक्तारः शीघ्रमेव आवश्यकसूचनाः अन्वेष्टुं शक्नुवन्ति वा इति
TF-IDF (Term Frequency-Inverse Document Frequency) इति एकः क्लासिकः सूचनापुनर्प्राप्ति-एल्गोरिदम् अस्ति यस्य उपयोगः दस्तावेजसमूहस्य अथवा कोर्पस्-मध्ये दस्तावेजेषु एकस्य शब्दस्य महत्त्वस्य मूल्याङ्कनार्थं भवति अस्य द्वौ भागौ स्तः- १.
TF-IDF एल्गोरिदम् सरलं कुशलं च अस्ति, परन्तु तस्य स्पष्टाः सीमाः अपि सन्ति । यथा, दस्तावेजदीर्घता, अन्वेषणपदस्थानम् इत्यादीन् कारकं न विचारयति, उच्चावृत्तिशब्दानां अतिप्रधानतां च ददाति ।
BM25 (Best Matching 25) एल्गोरिदम् TF-IDF एल्गोरिदम् इत्यस्य सुधारः विस्तारश्च अस्ति यत् प्रासंगिकतास्कोरस्य गणनायां अधिककारकाणां परिचयं करोति, यथा दस्तावेजस्य दीर्घता, अन्वेषणपदस्य स्थितिः च BM25 एल्गोरिदम् इत्यस्य मुख्यं उद्देश्यं पुनर्प्राप्तिपरिणामानां गुणवत्तां सुधारयितुम् अस्ति, विशेषतः बृहत्-परिमाणस्य दस्तावेजसङ्ग्रहस्य व्यवहारे
BM25 एल्गोरिदम् इत्यस्य मूलसूत्रं अस्ति :
[
पाठ {स्कोर} (डी, क्यू) = योग_{i = 1} ^ {n} पाठ {आईडीएफ} (q_i) cdot frac {f (q_i, D) cdot (k_1 + 1)}} च (q_i, D) + k_1 cdot (1 - b + b cdot frac{|D|}{पाठ{avgdl}})}
]
इत्यस्मिन्, डी.डीघ दस्तावेजस्य प्रतिनिधित्वं करोति, . QQप्र प्रश्नस्य प्रतिनिधित्वं करोति, . qi q_iqअहम् प्रश्ने पदानाम् प्रतिनिधित्वं करोति, च ( qi , D ) f(q_i, D) .च(qअहम्,घ) शाब्दिकवस्तूनि सूचयति qi q_iqअहम्दस्तावेजीकरणे डी.डीघआवृत्तिः in, . ∣ द ∣ |द|∣घ∣ दस्तावेजस्य प्रतिनिधित्वं कुर्वन्तु डी.डीघदैर्घ्यम्, avgdl text{avgdl} २.avgdl दस्तावेजसङ्ग्रहे सर्वेषां दस्तावेजानां औसतदीर्घतां प्रतिनिधियति, क १ क_१k1 तथा bbख समायोज्यः पैरामीटर् अस्ति ।
BM25 एल्गोरिदम् इत्यस्य TF-IDF एल्गोरिदम् इत्यस्य अपेक्षया निम्नलिखितलाभाः सन्ति ।
परन्तु BM25 एल्गोरिदम् इत्यस्य जटिलता अपि अस्ति, उत्तमं परिणामं प्राप्तुं बहुविधमापदण्डानां समायोजनं आवश्यकम् ।
Elasticsearch संस्करण 5.0 इत्यस्मात् पूर्वं प्रासंगिकतास्कोरिंग् कृते पूर्वनिर्धारितरूपेण TF-IDF एल्गोरिदम् उपयुज्यते स्म । संस्करण 5.0 तः आरभ्य Elasticsearch पूर्वनिर्धारितरूपेण BM25 एल्गोरिदम् इत्यस्य उपयोगं करोति यतः व्यावहारिक-अनुप्रयोगेषु उत्तमं प्रदर्शनं करोति ।
Elasticsearch कथं दस्तावेजस्य प्रासंगिकतास्कोरं प्रश्नाय गणयति इति अन्वेषणार्थं भवान् उपयोक्तुं शक्नोति_explain
एपिआइ। एतत् एपिआइ दस्तावेजे प्रत्येकस्य प्रश्नपदस्य स्कोरस्य व्याख्यां प्रत्यागन्तुं शक्नोति, यत्र तस्य व्यक्तिगतघटकाः (यथा उपप्रश्नाः, कारकाः, सामान्यीकरणं इत्यादयः) समग्रस्कोरे तेषां विशिष्टं योगदानं च समाविष्टम् अस्ति
यथा, विशिष्टप्रश्नस्य कृते TF-IDF अथवा BM25 स्कोरं द्रष्टुं भवान् निम्नलिखित-आदेशस्य उपयोगं कर्तुं शक्नोति:
GET /my_index/_search
{
"explain": true,
"query": {
"match": {
"text": "this is the first document"
}
}
}
ई-वाणिज्यजालस्थले उपयोक्तारः अन्वेषणार्थं "मोबाइलफोन" इति कीवर्डं प्रविष्टुं शक्नुवन्ति । Elasticsearch "मोबाइलफोन" युक्तानां सर्वेषां दस्तावेजानां अनुक्रमणिकां करिष्यति तथा च BM25 एल्गोरिदम् इत्यस्य उपयोगेन तेषां प्रासंगिकतास्कोरस्य गणनां करिष्यति । उच्चाङ्कयुक्ताः दस्तावेजाः अन्वेषणपरिणामेषु अधिकं स्थानं प्राप्नुवन्ति, येन उपयोक्तृअनुभवः सुधरति ।
Elasticsearch इत्यस्य प्रासंगिकतास्कोरिंग् तन्त्रं जटिल-एल्गोरिदम्-आधारितम् अस्ति, येषु TF-IDF तथा BM25 एल्गोरिदम् इत्येतौ द्वौ महत्त्वपूर्णौ स्कोरिंग् एल्गोरिदम् स्तः । एतेषां एल्गोरिदम्स् इत्यस्य सिद्धान्तानां अनुप्रयोगानाञ्च अवगमनं Elasticsearch इत्यस्य अन्वेषणप्रदर्शनस्य परिणामस्य च अनुकूलनार्थं महत्त्वपूर्णम् अस्ति ।एल्गोरिदम् पैरामीटर्स् समायोजयित्वा उपयोगेन च_explain
त्रुटिनिवारणार्थं एपिआइ, .