2024-07-11
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
मुख्यविषयाणि : rerank
मुख्यविषयाणि : आँकडासंसाधनसूचकाङ्कः
मुख्यविषयेषु दस्तावेजपार्सिंग्, स्लाइसिंग्, क्वेरीपुनर्लेखनं, रिकॉल मॉडल् फाइन-ट्यूनिङ्ग् च सन्ति ।
लाभाः : अधिकं लचीलता
निम्नलिखितम् मॉड्यूलानुसारं प्रत्येकस्य रूपरेखायाः भेदानाम् तुलनां करोति ।
कार्यात्मक मॉड्यूल | Qकिमपि | रागफ्लोव | द्रुतGPT | बुद्धि स्पेक्ट्रम ऐ |
---|---|---|---|---|
ज्ञान संसाधन मॉड्यूल | PDF सञ्चिकाविश्लेषणं PyMUPDF द्वारा कार्यान्वितम् अस्ति, यत् वर्तमानकाले PyMuPDF इत्यस्य get_text इत्यस्य उपयोगः दस्तावेजस्य पाठस्य विश्लेषणार्थं भवति (यदि चित्रदस्तावेजे पाठः नास्ति तर्हि त्रुटिः निवेदितं भविष्यति) | OCR, Document Layout Analyze इत्यादीनि, एते नियमित RAG मध्ये अगोचर Unstructured Loader इत्यस्य रूपेण समाविष्टाः भवितुम् अर्हन्ति यत् RagFlow इत्यस्य एकः मूलक्षमता सञ्चिकाविश्लेषणप्रक्रियायां निहितः अस्ति । | ||
recall मॉड्यूल | सदिशपुस्तकालयः milvus इत्यस्य संकरपुनर्प्राप्तिः (BM25 सदिशपुनर्प्राप्तिः) उपयुज्यते, सीमां न सेट् करोति, topk (100) च प्रत्यागच्छति । | सदिशदत्तांशकोशः ElasticSearch इत्यस्य उपयोगं करोति ।संकरपुनर्प्राप्तिः पाठपुनर्प्राप्तिः सदिशपुनर्प्राप्तिः कार्यान्वयति ।कोऽपि विशिष्टः सदिशप्रतिरूपः निर्दिष्टः नास्ति, परन्तु पाठपुनर्प्राप्त्यर्थं huqie इति शब्दविभागकर्तृरूपेण उपयुज्यते | शब्दार्थपुनर्प्राप्तिः शब्दार्थपुनर्प्राप्तिविधिः उन्नतसदिशप्रतिरूपप्रौद्योगिक्याः उपयोगं करोति यत् ज्ञानाधारे आँकडासमूहान् उच्च-आयामीसदिशस्थाने बिन्दुषु परिवर्तयति अस्मिन् अन्तरिक्षे प्रत्येकं दस्तावेजं वा दत्तांशवस्तु वा सदिशरूपेण प्रतिनिधित्वं भवति यत् दत्तांशस्य शब्दार्थसूचनाः गृह्णाति । यदा उपयोक्ता प्रश्नं स्थापयति तदा प्रणाली प्रश्नं सदिशे अपि परिवर्तयति तथा च ज्ञानकोशे सदिशैः सह सदिशस्थाने समानतागणनां करोति यत् अत्यन्तं प्रासंगिकं परिणामं अन्वेष्टुं शक्नोति लाभाः : प्रश्नानां गहनतरं अर्थं अवगन्तुं गृहीतुं च अधिकं सटीकं अन्वेषणपरिणामं प्रदातुं क्षमता। अनुप्रयोगपरिदृश्याः : गहनशब्दार्थसमझस्य जटिलप्रश्नसंसाधनस्य च आवश्यकतां जनयति, यथा शैक्षणिकसंशोधनं, तकनीकीसमस्यानिराकरणम् इत्यादिषु परिस्थितिषु उपयुक्तम्। तकनीकी कार्यान्वयनम् : कुशलं शब्दार्थमेलनं प्राप्तुं पाठदत्तांशं एम्बेडिंग् कर्तुं text-embedding-ada-002 इत्यादीनां मॉडल्-उपयोगं कुर्वन्तु । पूर्णपाठसन्धानं पूर्णपाठसन्धानविधिः दस्तावेजानां पूर्णपाठसामग्रीणां अनुक्रमणिकायां केन्द्रीभवति, येन उपयोक्तारः कीवर्डप्रविश्य दस्तावेजान् अन्वेष्टुं शक्नुवन्ति । एषः मोड् दस्तावेजे प्रत्येकं पदं विश्लेषयति तथा च सर्वाणि दस्तावेजानि समाविष्टं अनुक्रमणिकादत्तांशकोशं निर्माति, येन उपयोक्तारः कस्यापि शब्दस्य वा वाक्यस्य वा माध्यमेन प्रासंगिकदस्तावेजान् शीघ्रं अन्वेष्टुं शक्नुवन्ति लाभाः : पुनर्प्राप्तिवेगः द्रुतगतिः भवति, तथा च एतत् बहूनां दस्तावेजानां विस्तृतं अन्वेषणं कर्तुं शक्नोति, येन उपयोक्तृभ्यः विशिष्टशब्दयुक्तानां दस्तावेजानां शीघ्रं स्थानं ज्ञातुं सुविधा भवति अनुप्रयोगपरिदृश्याः : एतादृशानां परिदृश्यानां कृते उपयुक्ताः येषु दस्तावेजपुस्तकालयानां व्यापकसन्धानस्य आवश्यकता भवति, यथा समाचारप्रतिवेदनानि, ऑनलाइनपुस्तकालयाः इत्यादयः। तकनीकी कार्यान्वयनम् : कीवर्डद्वारा दस्तावेजानां शीघ्रं स्थानं ज्ञातुं उल्टासूचकाङ्कप्रौद्योगिक्याः उपयोगं कुर्वन्तु, अन्वेषणपरिणामानां प्रासंगिकतां अनुकूलितुं TF-IDF इत्यादिभिः एल्गोरिदम्भिः सह तस्य संयोजनं कुर्वन्तु संकरपुनर्प्राप्तिः संकरपुनर्प्राप्तिविधिः शब्दार्थपुनर्प्राप्तेः गहनबोधं पूर्णपाठपुनर्प्राप्तेः द्रुतप्रतिक्रियायाः सह संयोजयति, यस्य उद्देश्यं अन्वेषणानुभवं प्रदातुं भवति यत् सटीकं व्यापकं च भवति अस्मिन् मोड् मध्ये, प्रणाली न केवलं कीवर्डमेलनं करोति, अपितु अन्वेषणपरिणामानां प्रासंगिकतां सटीकता च सुनिश्चित्य अर्थसादृश्यगणनान् अपि संयोजयति लाभाः : पूर्णपाठपुनर्प्राप्तेः गतिं शब्दार्थपुनर्प्राप्तेः गभीरतां च गृहीत्वा सन्तुलितं अन्वेषणसमाधानं प्रदाति तथा च उपयोक्तृसन्तुष्टिं सुधरति अनुप्रयोगपरिदृश्याः : यत्र पुनर्प्राप्तिगतिः परिणामगुणवत्ता च व्यापकरूपेण विचारणीया भवति, यथा ऑनलाइनग्राहकसेवा, सामग्रीसिफारिशप्रणाली इत्यादयः परिदृश्यानां कृते उपयुक्ताः। तकनीकी कार्यान्वयनम् : उल्टासूचकाङ्कस्य सदिशस्थानप्रतिरूपस्य च संयोजनेन उपयोक्तृप्रश्नानां व्यापकबोधः द्रुतप्रतिक्रिया च प्राप्यते यथा, भवान् पूर्णपाठ-अन्वेषणद्वारा अभ्यर्थी-समूहं शीघ्रं छानयितुं शक्नोति, ततः शब्दार्थ-अन्वेषणद्वारा अभ्यर्थी-समूहात् सर्वाधिकं प्रासंगिकं परिणामं अन्वेष्टुं शक्नोति सदिशप्रतिरूपस्य उपयोगः भवति: BGE-M3 सदिशपुनर्प्राप्तेः पाठपुनर्प्राप्तेः च माध्यमेन आँकडानां स्मरणं करोति, तथा च क्रमणार्थं RFF एल्गोरिदमस्य उपयोगं करोति; | लेखसंरचनास्लाइसिंग् तथा लघुतः बृहत्पर्यन्तं अनुक्रमणिकारणनीतिः स्वीकर्तुं उत्तमं समाधानं भवितुम् अर्हति । उत्तरार्द्धस्य कृते Embedding मॉडल् इत्यस्य सूक्ष्म-समायोजनस्य आवश्यकता वर्तते । अस्माकं कृते आँकडानां निर्माणार्थं चत्वारि भिन्नानि योजनानि सन्ति, ये सर्वेऽपि व्यवहारे उत्तमं प्रदर्शनं कुर्वन्ति: प्रश्नः बनाम मूलः: सरलः कुशलः च, आँकडासंरचना प्रत्यक्षतया ज्ञानमूलखण्डान् स्मर्तुं उपयोक्तृप्रश्नस्य उपयोगं करोति: प्रश्नः बनाम प्रश्नः: परिपालने सुलभः, अर्थात्; उपयोक्तुः प्रश्नस्य उपयोगेन प्रश्नस्य स्मरणं भवति शीतप्रारम्भस्य समये, तत्सम्बद्धात् ज्ञानखण्डात् प्रश्नं निष्कासयितुं मॉडलस्वचालनस्य उपयोगः कर्तुं शक्यते: ज्ञानखण्डस्य सारांशं स्मर्तुं प्रश्नस्य उपयोगं कुर्वन्तु तथा च सारांशस्य तथा च the knowledge fragment; F-Answer vs Original: ज्ञानखण्डान् स्मर्तुं उपयोक्तृप्रश्नानां आधारेण नकली उत्तराणि जनयन्तु।Embedding model इत्यस्य सूक्ष्म-समायोजनम् |
मॉड्यूल पुनः व्यवस्थित करें | सटीकक्रमणं स्वस्य पुनःक्रमप्रतिरूपस्य उपयोगं करोति, परन्तु सीमा 0.35 इति सेट् भवति | पुनर्व्यवस्था पाठमेलनस्कोरस्य सदिशमेलनस्कोरस्य च मिश्रणस्य आधारेण भवति पाठमेलनस्य पूर्वनिर्धारितभारः 0.3 तथा सदिशमेलनस्य भारः 0.7 भवति । | पुनर्क्रमणं समर्थयति, गतिशीलरूपेण एम्बेडिंग् तथा पूर्णपाठस्य विलयस्य परिणामान् सेट् करोति, तथा च ID आधारितं डुप्लिकेशनं दूरीकरोति, रिक्तस्थानानि विरामचिह्नानि च निष्कासयति, स्ट्रिंग्स् हैश-एन्कोड् करोति, यदि पुनः रैंक मॉडल् विन्यस्तं भवति तर्हि The model इति आह्वयति; पुनः क्रमबद्धः भवति तथा च पुनःक्रमाङ्कः स्कोरे योजितः भवति यदि न तर्हि पुनःक्रमाङ्कः न योजितः भविष्यति; | |
बृहत् मॉडलस्य निबन्धनम् | सर्वाणि दत्तांशं एकत्र व्यवस्थितं कर्तुं प्रॉम्प्ट् (अधिकतम टोकनस्य कृते अनुकूलितम्) | बृहत् मॉडल् कृते उपलब्धानां टोकनसङ्ख्यायाः आधारेण फ़िल्टर कुर्वन्तु | मॉडल-सूक्ष्म-ट्यूनिङ्गस्य कृते मञ्चित-सूक्ष्म-समायोजनं स्वीक्रियते, अर्थात् प्रथमं मुक्त-स्रोत-सामान्य-प्रश्न-उत्तर-दत्तांशस्य उपयोगेन सूक्ष्म-समायोजनं क्रियते, ततः ऊर्ध्वाधर-डोमेन-प्रश्न-उत्तर-दत्तांशस्य उपयोगेन सूक्ष्म-समायोजनं क्रियते, अन्ते च सूक्ष्म-समायोजनं क्रियते हस्तचलितरूपेण टिप्पणीकृतं उच्चगुणवत्तायुक्तं प्रश्नोत्तरदत्तांशं उपयुज्य क्रियते। | |
जालसेवा | जालसेवानां कार्यान्वयनार्थं sanic इत्यस्य उपयोगः | फ्लास्क | फस्तपि | |
शब्दविभाजनप्रक्रियाकरणम् | कस्टम ChineseTextSplitter सम्पन्न | हुकिए | ||
सञ्चिकासञ्चयः | सञ्चिकाभण्डारणं MinIO इत्यस्य उपयोगं करोति | |||
मुख्यविषयाणि | पारम्परिक RAG इत्यस्य तुलने पुनः क्रमाङ्कनप्रक्रियायां सूक्ष्मसमायोजनं कृतम् अस्ति । | पार्सिंग् प्रक्रिया अपि लेखनार्थं अतीव जटिला अस्ति, अतः प्रक्रियावेगः किञ्चित् मन्दः इति कोऽपि आश्चर्यं नास्ति । परन्तु अन्येभ्यः आरएजी परियोजनाभ्यः अपेक्षया प्रसंस्करणप्रभावः उत्तमः भविष्यति इति अपेक्षा अस्ति । वास्तविक-अग्रभागे प्रदर्शितस्य डेमो-तः न्याय्यः, RAGFlow मूलदस्तावेजे मूलस्थानेन सह विश्लेषित-पाठ-खण्डं सम्बद्धं कर्तुं शक्नोति, सम्प्रति, इदं प्रतीयते यत् केवलं RagFlow-इत्यनेन एव एतादृशः प्रभावः प्राप्तः | FastGPT त्रीणि पुनर्प्राप्तिविधानानि प्रदाति, यत्र RAG मध्ये मुख्यधाराकार्यन्वयनानि आच्छादयन्ति । दत्तांशस्य डुप्लिकेट् कृत्वा सर्वोच्चस्कोरस्य उपयोगं कुर्वन्तु तस्य आधारेण क्रमणं कुर्वन्तु; |
सारांशः - १.
1. Qanything rerank मॉड्यूल सर्वोत्तमरूपेण डिजाइनं कृतम् अस्ति
2. RAGFlow दस्तावेजप्रक्रियाकरणं सर्वोत्तमम् अस्ति
3. FastGPT मॉड्यूले बहवः गतिशीलविन्यासाः सन्ति
4. डोमेन-आँकडा-प्रशिक्षणस्य सूक्ष्म-समायोजनाय बुद्धि-स्पेक्ट्रम् RAG सर्वोत्तमम् अस्ति
पूर्ण आयाम। सर्वोत्तमः नास्ति।स्वस्य व्यवसायस्य दत्तांशस्य दृष्ट्या तत् कार्यान्वितुं शक्नुवन् सर्वोत्तमम्~