प्रौद्योगिकी साझेदारी

RAG केस फ्रेमवर्क (Qanything, RAGFlow, FastGPT, Wisdom Spectrum RAG) इत्यस्य तुलना

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

प्रत्येकस्य कम्पनीयाः तकनीकीसमाधानम्

Youdao Qकिमपि

मुख्यविषयाणि : rerank

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

रागफ्लोव

मुख्यविषयाणि : आँकडासंसाधनसूचकाङ्कः

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

बुद्धि स्पेक्ट्रम ऐ

मुख्यविषयेषु दस्तावेजपार्सिंग्, स्लाइसिंग्, क्वेरीपुनर्लेखनं, रिकॉल मॉडल् फाइन-ट्यूनिङ्ग् च सन्ति ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

द्रुतGPT

लाभाः : अधिकं लचीलता

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

निम्नलिखितम् मॉड्यूलानुसारं प्रत्येकस्य रूपरेखायाः भेदानाम् तुलनां करोति ।

कार्यात्मक मॉड्यूलQकिमपिरागफ्लोवद्रुतGPTबुद्धि स्पेक्ट्रम ऐ
ज्ञान संसाधन मॉड्यूलPDF सञ्चिकाविश्लेषणं PyMUPDF द्वारा कार्यान्वितम् अस्ति, यत् वर्तमानकाले PyMuPDF इत्यस्य get_text इत्यस्य उपयोगः दस्तावेजस्य पाठस्य विश्लेषणार्थं भवति (यदि चित्रदस्तावेजे पाठः नास्ति तर्हि त्रुटिः निवेदितं भविष्यति)OCR, Document Layout Analyze इत्यादीनि, एते नियमित RAG मध्ये अगोचर Unstructured Loader इत्यस्य रूपेण समाविष्टाः भवितुम् अर्हन्ति यत् RagFlow इत्यस्य एकः मूलक्षमता सञ्चिकाविश्लेषणप्रक्रियायां निहितः अस्ति ।
recall मॉड्यूलसदिशपुस्तकालयः milvus इत्यस्य संकरपुनर्प्राप्तिः (BM25 सदिशपुनर्प्राप्तिः) उपयुज्यते, सीमां न सेट् करोति, topk (100) च प्रत्यागच्छति । सदिशदत्तांशकोशः ElasticSearch इत्यस्य उपयोगं करोति ।संकरपुनर्प्राप्तिः पाठपुनर्प्राप्तिः सदिशपुनर्प्राप्तिः कार्यान्वयति ।कोऽपि विशिष्टः सदिशप्रतिरूपः निर्दिष्टः नास्ति, परन्तु पाठपुनर्प्राप्त्यर्थं huqie इति शब्दविभागकर्तृरूपेण उपयुज्यते शब्दार्थपुनर्प्राप्तिः शब्दार्थपुनर्प्राप्तिविधिः उन्नतसदिशप्रतिरूपप्रौद्योगिक्याः उपयोगं करोति यत् ज्ञानाधारे आँकडासमूहान् उच्च-आयामीसदिशस्थाने बिन्दुषु परिवर्तयति अस्मिन् अन्तरिक्षे प्रत्येकं दस्तावेजं वा दत्तांशवस्तु वा सदिशरूपेण प्रतिनिधित्वं भवति यत् दत्तांशस्य शब्दार्थसूचनाः गृह्णाति । यदा उपयोक्ता प्रश्नं स्थापयति तदा प्रणाली प्रश्नं सदिशे अपि परिवर्तयति तथा च ज्ञानकोशे सदिशैः सह सदिशस्थाने समानतागणनां करोति यत् अत्यन्तं प्रासंगिकं परिणामं अन्वेष्टुं शक्नोति लाभाः : प्रश्नानां गहनतरं अर्थं अवगन्तुं गृहीतुं च अधिकं सटीकं अन्वेषणपरिणामं प्रदातुं क्षमता। अनुप्रयोगपरिदृश्याः : गहनशब्दार्थसमझस्य जटिलप्रश्नसंसाधनस्य च आवश्यकतां जनयति, यथा शैक्षणिकसंशोधनं, तकनीकीसमस्यानिराकरणम् इत्यादिषु परिस्थितिषु उपयुक्तम्। तकनीकी कार्यान्वयनम् : कुशलं शब्दार्थमेलनं प्राप्तुं पाठदत्तांशं एम्बेडिंग् कर्तुं text-embedding-ada-002 इत्यादीनां मॉडल्-उपयोगं कुर्वन्तु । पूर्णपाठसन्धानं पूर्णपाठसन्धानविधिः दस्तावेजानां पूर्णपाठसामग्रीणां अनुक्रमणिकायां केन्द्रीभवति, येन उपयोक्तारः कीवर्डप्रविश्य दस्तावेजान् अन्वेष्टुं शक्नुवन्ति । एषः मोड् दस्तावेजे प्रत्येकं पदं विश्लेषयति तथा च सर्वाणि दस्तावेजानि समाविष्टं अनुक्रमणिकादत्तांशकोशं निर्माति, येन उपयोक्तारः कस्यापि शब्दस्य वा वाक्यस्य वा माध्यमेन प्रासंगिकदस्तावेजान् शीघ्रं अन्वेष्टुं शक्नुवन्ति लाभाः : पुनर्प्राप्तिवेगः द्रुतगतिः भवति, तथा च एतत् बहूनां दस्तावेजानां विस्तृतं अन्वेषणं कर्तुं शक्नोति, येन उपयोक्तृभ्यः विशिष्टशब्दयुक्तानां दस्तावेजानां शीघ्रं स्थानं ज्ञातुं सुविधा भवति अनुप्रयोगपरिदृश्याः : एतादृशानां परिदृश्यानां कृते उपयुक्ताः येषु दस्तावेजपुस्तकालयानां व्यापकसन्धानस्य आवश्यकता भवति, यथा समाचारप्रतिवेदनानि, ऑनलाइनपुस्तकालयाः इत्यादयः। तकनीकी कार्यान्वयनम् : कीवर्डद्वारा दस्तावेजानां शीघ्रं स्थानं ज्ञातुं उल्टासूचकाङ्कप्रौद्योगिक्याः उपयोगं कुर्वन्तु, अन्वेषणपरिणामानां प्रासंगिकतां अनुकूलितुं TF-IDF इत्यादिभिः एल्गोरिदम्भिः सह तस्य संयोजनं कुर्वन्तु संकरपुनर्प्राप्तिः संकरपुनर्प्राप्तिविधिः शब्दार्थपुनर्प्राप्तेः गहनबोधं पूर्णपाठपुनर्प्राप्तेः द्रुतप्रतिक्रियायाः सह संयोजयति, यस्य उद्देश्यं अन्वेषणानुभवं प्रदातुं भवति यत् सटीकं व्यापकं च भवति अस्मिन् मोड् मध्ये, प्रणाली न केवलं कीवर्डमेलनं करोति, अपितु अन्वेषणपरिणामानां प्रासंगिकतां सटीकता च सुनिश्चित्य अर्थसादृश्यगणनान् अपि संयोजयति लाभाः : पूर्णपाठपुनर्प्राप्तेः गतिं शब्दार्थपुनर्प्राप्तेः गभीरतां च गृहीत्वा सन्तुलितं अन्वेषणसमाधानं प्रदाति तथा च उपयोक्तृसन्तुष्टिं सुधरति अनुप्रयोगपरिदृश्याः : यत्र पुनर्प्राप्तिगतिः परिणामगुणवत्ता च व्यापकरूपेण विचारणीया भवति, यथा ऑनलाइनग्राहकसेवा, सामग्रीसिफारिशप्रणाली इत्यादयः परिदृश्यानां कृते उपयुक्ताः। तकनीकी कार्यान्वयनम् : उल्टासूचकाङ्कस्य सदिशस्थानप्रतिरूपस्य च संयोजनेन उपयोक्तृप्रश्नानां व्यापकबोधः द्रुतप्रतिक्रिया च प्राप्यते यथा, भवान् पूर्णपाठ-अन्वेषणद्वारा अभ्यर्थी-समूहं शीघ्रं छानयितुं शक्नोति, ततः शब्दार्थ-अन्वेषणद्वारा अभ्यर्थी-समूहात् सर्वाधिकं प्रासंगिकं परिणामं अन्वेष्टुं शक्नोति सदिशप्रतिरूपस्य उपयोगः भवति: BGE-M3 सदिशपुनर्प्राप्तेः पाठपुनर्प्राप्तेः च माध्यमेन आँकडानां स्मरणं करोति, तथा च क्रमणार्थं RFF एल्गोरिदमस्य उपयोगं करोति; लेखसंरचनास्लाइसिंग् तथा लघुतः बृहत्पर्यन्तं अनुक्रमणिकारणनीतिः स्वीकर्तुं उत्तमं समाधानं भवितुम् अर्हति । उत्तरार्द्धस्य कृते Embedding मॉडल् इत्यस्य सूक्ष्म-समायोजनस्य आवश्यकता वर्तते । अस्माकं कृते आँकडानां निर्माणार्थं चत्वारि भिन्नानि योजनानि सन्ति, ये सर्वेऽपि व्यवहारे उत्तमं प्रदर्शनं कुर्वन्ति: प्रश्नः बनाम मूलः: सरलः कुशलः च, आँकडासंरचना प्रत्यक्षतया ज्ञानमूलखण्डान् स्मर्तुं उपयोक्तृप्रश्नस्य उपयोगं करोति: प्रश्नः बनाम प्रश्नः: परिपालने सुलभः, अर्थात्; उपयोक्तुः प्रश्नस्य उपयोगेन प्रश्नस्य स्मरणं भवति शीतप्रारम्भस्य समये, तत्सम्बद्धात् ज्ञानखण्डात् प्रश्नं निष्कासयितुं मॉडलस्वचालनस्य उपयोगः कर्तुं शक्यते: ज्ञानखण्डस्य सारांशं स्मर्तुं प्रश्नस्य उपयोगं कुर्वन्तु तथा च सारांशस्य तथा च the knowledge fragment; F-Answer vs Original: ज्ञानखण्डान् स्मर्तुं उपयोक्तृप्रश्नानां आधारेण नकली उत्तराणि जनयन्तु।Embedding model इत्यस्य सूक्ष्म-समायोजनम्
मॉड्यूल पुनः व्यवस्थित करेंसटीकक्रमणं स्वस्य पुनःक्रमप्रतिरूपस्य उपयोगं करोति, परन्तु सीमा 0.35 इति सेट् भवतिपुनर्व्यवस्था पाठमेलनस्कोरस्य सदिशमेलनस्कोरस्य च मिश्रणस्य आधारेण भवति पाठमेलनस्य पूर्वनिर्धारितभारः 0.3 तथा सदिशमेलनस्य भारः 0.7 भवति ।पुनर्क्रमणं समर्थयति, गतिशीलरूपेण एम्बेडिंग् तथा पूर्णपाठस्य विलयस्य परिणामान् सेट् करोति, तथा च ID आधारितं डुप्लिकेशनं दूरीकरोति, रिक्तस्थानानि विरामचिह्नानि च निष्कासयति, स्ट्रिंग्स् हैश-एन्कोड् करोति, यदि पुनः रैंक मॉडल् विन्यस्तं भवति तर्हि The model इति आह्वयति; पुनः क्रमबद्धः भवति तथा च पुनःक्रमाङ्कः स्कोरे योजितः भवति यदि न तर्हि पुनःक्रमाङ्कः न योजितः भविष्यति;
बृहत् मॉडलस्य निबन्धनम्सर्वाणि दत्तांशं एकत्र व्यवस्थितं कर्तुं प्रॉम्प्ट् (अधिकतम टोकनस्य कृते अनुकूलितम्)बृहत् मॉडल् कृते उपलब्धानां टोकनसङ्ख्यायाः आधारेण फ़िल्टर कुर्वन्तुमॉडल-सूक्ष्म-ट्यूनिङ्गस्य कृते मञ्चित-सूक्ष्म-समायोजनं स्वीक्रियते, अर्थात् प्रथमं मुक्त-स्रोत-सामान्य-प्रश्न-उत्तर-दत्तांशस्य उपयोगेन सूक्ष्म-समायोजनं क्रियते, ततः ऊर्ध्वाधर-डोमेन-प्रश्न-उत्तर-दत्तांशस्य उपयोगेन सूक्ष्म-समायोजनं क्रियते, अन्ते च सूक्ष्म-समायोजनं क्रियते हस्तचलितरूपेण टिप्पणीकृतं उच्चगुणवत्तायुक्तं प्रश्नोत्तरदत्तांशं उपयुज्य क्रियते।
जालसेवाजालसेवानां कार्यान्वयनार्थं sanic इत्यस्य उपयोगःफ्लास्कफस्तपि
शब्दविभाजनप्रक्रियाकरणम्कस्टम ChineseTextSplitter सम्पन्नहुकिए
सञ्चिकासञ्चयःसञ्चिकाभण्डारणं MinIO इत्यस्य उपयोगं करोति
मुख्यविषयाणिपारम्परिक RAG इत्यस्य तुलने पुनः क्रमाङ्कनप्रक्रियायां सूक्ष्मसमायोजनं कृतम् अस्ति । पार्सिंग् प्रक्रिया अपि लेखनार्थं अतीव जटिला अस्ति, अतः प्रक्रियावेगः किञ्चित् मन्दः इति कोऽपि आश्चर्यं नास्ति । परन्तु अन्येभ्यः आरएजी परियोजनाभ्यः अपेक्षया प्रसंस्करणप्रभावः उत्तमः भविष्यति इति अपेक्षा अस्ति । वास्तविक-अग्रभागे प्रदर्शितस्य डेमो-तः न्याय्यः, RAGFlow मूलदस्तावेजे मूलस्थानेन सह विश्लेषित-पाठ-खण्डं सम्बद्धं कर्तुं शक्नोति, सम्प्रति, इदं प्रतीयते यत् केवलं RagFlow-इत्यनेन एव एतादृशः प्रभावः प्राप्तः FastGPT त्रीणि पुनर्प्राप्तिविधानानि प्रदाति, यत्र RAG मध्ये मुख्यधाराकार्यन्वयनानि आच्छादयन्ति । दत्तांशस्य डुप्लिकेट् कृत्वा सर्वोच्चस्कोरस्य उपयोगं कुर्वन्तु तस्य आधारेण क्रमणं कुर्वन्तु;

सारांशः - १.

1. Qanything rerank मॉड्यूल सर्वोत्तमरूपेण डिजाइनं कृतम् अस्ति

2. RAGFlow दस्तावेजप्रक्रियाकरणं सर्वोत्तमम् अस्ति

3. FastGPT मॉड्यूले बहवः गतिशीलविन्यासाः सन्ति

4. डोमेन-आँकडा-प्रशिक्षणस्य सूक्ष्म-समायोजनाय बुद्धि-स्पेक्ट्रम् RAG सर्वोत्तमम् अस्ति

पूर्ण आयाम। सर्वोत्तमः नास्ति।स्वस्य व्यवसायस्य दत्तांशस्य दृष्ट्या तत् कार्यान्वितुं शक्नुवन् सर्वोत्तमम्~