प्रौद्योगिकी साझेदारी

Elasticsearch: पुनर्प्राप्तकानां परिचयः - सर्वं अन्वेषणम्

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

लेखकः इलास्टिकतःजेफ् वेस्टल, जैक कॉनराडसन

८.१४ तमे वर्षे Elastic इत्यनेन Elasticsearch इत्यस्मिन् "retrievers" इति नूतनं अन्वेषणविशेषता प्रवर्तते । तेषां सरलतायाः कार्यक्षमतायाः च विषये, ते भवतः अन्वेषणकार्यं कथं वर्धयितुं शक्नुवन्ति इति ज्ञातुं पठन्तु ।

Retrievers इति Elasticsearch मध्ये अन्वेषण API मध्ये योजितं नूतनं abstraction layer अस्ति । ते एकस्मिन् _search API आह्वाने बहुचरणीयपुनर्प्राप्तिपाइपलाइन् विन्यस्तुं सुविधां प्रयच्छन्ति । इदं वास्तुकला जटिलसन्धानप्रश्नानां कृते बहुविध Elasticsearch API आह्वानस्य आवश्यकतां निवारयित्वा भवतः अनुप्रयोगे अन्वेषणतर्कं सरलीकरोति । एतेन क्लायन्ट्-पक्षीयतर्कस्य आवश्यकता अपि न्यूनीभवति, यस्य कृते प्रायः बहुविधप्रश्नानां परिणामानां संयोजनस्य आवश्यकता भवति ।

पुनर्प्राप्तेः आरम्भिकः प्रकारः

प्रारम्भिकविमोचने त्रयः प्रकाराः पुनः प्राप्तकर्तारः समाविष्टाः सन्ति । प्रत्येकं पुनर्प्राप्तकर्ता विशिष्टप्रयोजनाय निर्मितं भवति, संयोजयित्वा ते जटिलान् अन्वेषणं कर्तुं शक्नुवन्ति ।

उपलब्धप्रकाराः सन्ति- १.

  • स्तरीय - पारम्परिकप्रश्नेषु शीर्षस्तरीयदस्तावेजान् प्रत्यागच्छति। एते प्रकाराः विद्यमानप्रश्न-DSL-अनुरोध-वाक्यविन्यासस्य समर्थनेन पश्चात्ताप-सङ्गताः सन्ति, येन भवान् स्वगत्या क्रॉलर-रूपरेखां प्रति प्रवासं कर्तुं शक्नोति ।
  • kNN - kNN अन्वेषणे शीर्षदस्तावेजान् प्रत्यागच्छति ।
  • आर आर एफ - परस्परसंलयन-एल्गोरिदमस्य उपयोगं कृत्वा बहुविध-प्रथम-चरण-पुनर्प्राप्तकर्तृणां संयोजनं कृत्वा एकस्मिन् परिणाम-समूहे क्रमाङ्कनं कुर्वन्तु यत्र कोऽपि वा न्यूनतमः उपयोक्तृ-समायोजनः नास्ति । आरआरएफ-पुनर्प्राप्तिः एकः यौगिक-पुनर्प्राप्तिकर्ता अस्ति यस्य फ़िल्टर-तत्त्वानि तस्य बाल-पुनर्प्राप्तिषु प्रसारितानि भवन्ति ।

पुनः प्राप्तकर्तारः कथं भिन्नाः भवन्ति ? किमर्थं ते उपयोगिनो भवन्ति ?

पारम्परिकप्रश्नानां कृते प्रश्नः समग्रस्य अन्वेषण-एपिआइ-आह्वानस्य भागः भवति । पुनर्प्राप्तिकर्तानां भिन्नता अस्ति यत् ते स्वतन्त्रसत्तारूपेण परिकल्पिताः सन्ति येषां उपयोगः व्यक्तिगतरूपेण वा सुलभतया वा संयुक्तरूपेण कर्तुं शक्यते । अन्वेषणरणनीतयः परिकल्पयन्ते सति एषः मॉड्यूलर-पद्धतिः अधिकं लचीलतां प्रदाति ।

रिट्रीवर्स् "रिट्रीवर ट्री" इत्यस्य भागरूपेण परिकल्पिताः भवन्ति, एषा श्रेणीबद्धसंरचना या अन्वेषणक्रियाः तेषां क्रमं तर्कं च स्पष्टीकृत्य परिभाषयति । एषा संरचना जटिलान् अन्वेषणं अधिकं प्रबन्धनीयं, विकासकानां कृते सुलभतया अवगन्तुं, भविष्ये नूतनानि विशेषतानि सुलभतया योजयितुं च शक्नोति ।

पुनर्प्राप्तकर्ताः रचनाक्षमताम् समर्थयन्ति, येन भवन्तः पाइपलाइनं निर्मातुं भिन्नानि पुनर्प्राप्तिरणनीतयः एकीकृत्य च शक्नुवन्ति । एतेन भिन्न-भिन्न-पुनर्प्राप्ति-संयोजनानां सुलभपरीक्षणं भवति । दस्तावेजानां स्कोरः कथं भवति, छाननं च कथं भवति इति विषये अपि ते अधिकं नियन्त्रणं ददति । उदाहरणार्थं, भवान् न्यूनतमं स्कोर-दहलीजं निर्दिष्टुं शक्नोति, स्कोरं प्रभावितं विना जटिल-छिद्रकान् प्रयोक्तुं शक्नोति, तथा च कार्यक्षमतायाः अनुकूलनार्थं terminate_after इत्यादीनां मापदण्डानां उपयोगं कर्तुं शक्नोति ।

विरासतां प्रश्नतत्त्वैः सह पश्चात्तापसङ्गततां निर्वाहयति, स्वयमेव तान् समुचितपुनर्प्राप्तिषु परिवर्तयति ।

पुनर्प्राप्तिप्रयोगोदाहरणम्

रिट्रीवर्स इत्यस्य उपयोगस्य केचन उदाहरणानि पश्यामः । वयं IMDB नमूनादत्तांशसमूहस्य उपयोगं कुर्मः ।

भवन्तः समाविष्टं चालयितुं शक्नुवन्ति jupyter नोटबुक, IMDB-दत्तांशं स्वस्य सर्वररहित-अन्वेषण-प्रकल्पे आयातयन्तु, तथा च स्वयमेव निम्नलिखित-उदाहरणानि चालयन्तु!

उच्चस्तरीयसेटिंग्स् सन्ति : १.

  • अवलोकनम् - चलचित्रस्य लघुसारांशः
  • नाम - चलचित्रस्य नाम
  • overview_dense - e5-small मॉडलतः उत्पन्नं dense_vector
  • overview_sparse - Elastic इत्यस्य ELSER मॉडलस्य उपयोगेन विरलसदिशः ।
  • केवलं क्षेत्राणां उपयोगेन _source:false इति सेट् कृत्वा नामानाम् अवलोकनस्य च पाठसंस्करणं प्रत्यागच्छति

मानक - सर्वान् पाठान् अन्वेष्टुम् !

  1. GET /imdb_movies/_search?pretty
  2. {
  3. "retriever": {
  4. "standard": {
  5. "query": {
  6. "term": {
  7. "overview": "clueless"
  8. }
  9. }
  10. }
  11. },
  12. "size": 3,
  13. "fields": [
  14. "names",
  15. "overview"
  16. ],
  17. "_source": false
  18. }

kNN - सर्वान् सघनसदिशान् अन्वेष्टुम्!

  1. GET /imdb_movies/_search?pretty
  2. {
  3. "retriever": {
  4. "knn": {
  5. "field": "overview_dense",
  6. "query_vector_builder": {
  7. "text_embedding": {
  8. "model_id": ".multilingual-e5-small_linux-x86_64",
  9. "model_text": "clueless slackers"
  10. }
  11. },
  12. "k": 5,
  13. "num_candidates": 5
  14. }
  15. },
  16. "size": 3,
  17. "fields": [
  18. "names",
  19. "overview"
  20. ],
  21. "_source": false
  22. }

text_expansion - सर्वान् विरलसदिशान् अन्वेष्टुम्!

  1. GET /imdb_movies/_search?pretty
  2. {
  3. "retriever": {
  4. "standard": {
  5. "query": {
  6. "text_expansion": {
  7. "overview_sparse": {
  8. "model_id": ".elser_model_2_linux-x86_64",
  9. "model_text": "clueless slackers"
  10. }
  11. }
  12. }
  13. }
  14. },
  15. "size": 3,
  16. "fields": [
  17. "names",
  18. "overview"
  19. ],
  20. "_source": false
  21. }

र्र्फ् - सर्वं संयोजयति !

  1. GET /imdb_movies/_search?pretty
  2. {
  3. "retriever": {
  4. "rrf": {
  5. "retrievers": [
  6. {
  7. "standard": {
  8. "query": {
  9. "term": {
  10. "overview": "clueless slackers"
  11. }
  12. }
  13. }
  14. },
  15. {
  16. "knn": {
  17. "field": "overview_dense",
  18. "query_vector_builder": {
  19. "text_embedding": {
  20. "model_id": ".multilingual-e5-small_linux-x86_64",
  21. "model_text": "clueless slackers"
  22. }
  23. },
  24. "k": 5,
  25. "num_candidates": 5
  26. }
  27. },
  28. {
  29. "standard": {
  30. "query": {
  31. "text_expansion": {
  32. "overview_sparse": {
  33. "model_id": ".elser_model_2_linux-x86_64",
  34. "model_text": "clueless slackers"
  35. }
  36. }
  37. }
  38. }
  39. }
  40. ],
  41. "rank_window_size": 5,
  42. "rank_constant": 1
  43. }
  44. },
  45. "size": 3,
  46. "fields": [
  47. "names",
  48. "overview"
  49. ],
  50. "_source": false
  51. }

पुनर्प्राप्तकस्य वर्तमानसीमा

पुनर्प्राप्तिः कतिपयैः सीमाभिः सह आगच्छति यस्य विषये उपयोक्तारः अवगताः भवेयुः । यथा, यौगिकपुनर्प्राप्तकस्य उपयोगेन केवलं तत्त्वानि एव पृच्छितुं शक्यन्ते । एतेन चिन्तानां स्पष्टतरं पृथक्करणं बाध्यं भवति तथा च अति-नीडीकरणेन अथवा स्वतन्त्रविन्यासेन सह यत् जटिलता आगच्छति तत् निवारयति । तदतिरिक्तं बाल-पुनर्प्राप्तिभिः तादृशानि तत्त्वानि न उपयोक्तव्याः ये समष्टि-पुनर्प्राप्तिं पुनः प्राप्तकर्ता-वृक्षस्य भागत्वेन प्रतिबन्धयन्ति ।

एते प्रतिबन्धाः जटिलपुनर्प्राप्तिरणनीतयः उपयुज्यमानेऽपि कार्यप्रदर्शने, रचनाक्षमतायां च सुधारं कुर्वन्ति ।

पुनः प्राप्तकर्ता प्रारम्भे प्रौद्योगिकीपूर्वावलोकनरूपेण मुक्तः भवति, अतः तस्य एपिआइ परिवर्तनस्य विषयः अस्ति

उपसंहारे

अन्वेषकाः Elasticsearch अन्वेषणकार्यक्षमतायां उपयोक्तृ-अनुकूलतायां च महत्त्वपूर्णं पदं प्रतिनिधियन्ति । ते पाइपलाइनरूपेण शृङ्खलाबद्धाः कर्तुं शक्यन्ते, प्रत्येकं पुनर्प्राप्तकर्ता स्वस्य तर्कं प्रयोजयित्वा परिणामान् शृङ्खलायां अग्रिमवस्तुं प्रति प्रसारयति । पुनः प्राप्तकर्तारः अधिकसंरचितं, लचीलं, कुशलं च अन्वेषणकार्यक्रमं अनुमन्यमानं अन्वेषण-अनुभवं महत्त्वपूर्णतया वर्धयितुं शक्नुवन्ति ।

निम्नलिखितसंसाधनाः पुनर्प्राप्तकानां विषये अधिकविवरणं ददति ।

उपर्युक्तं कोडं स्वयमेव प्रयतस्व!भवन्तः धावितुं शक्नुवन्तिसहित jupyter नोटबुक, Elastic Serverless Search परियोजनायां IMDB आँकडा आयातयन्तु!

स्वयमेव तस्य प्रयोगं कर्तुं सज्जाः वा?प्रारंभःनिःशुल्क परीक्षण
Elastic प्रमाणितं प्राप्तुम् इच्छति वा?अग्रिमे समये ज्ञातव्यम्Elasticsearch अभियंता प्रशिक्षणकदा आरम्भः करणीयः !

मूल:Elasticsearch retrievers - Elasticsearch — Elastic Search Labs इत्यस्मिन् अन्वेषणपुनर्प्राप्तेः उपयोगः कथं भवति