2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
कम्पनी नूतनं बृहत् आँकडा आर्किटेक्चरं उपयोक्तुं इच्छति तथा च विदेशीय बृहत् आँकडा मञ्चानां स्थाने घरेलुमञ्चान् स्थापयितुं योजना अस्ति। अतः अत्र अहं भ्रमितः अस्मि यत् doris इत्यस्य उपयोगं कर्तव्यम् अथवा starrocks यदि अहं doris इत्यस्य उपयोगं करोमि, यतः एतत् open source अस्ति, अहं भविष्ये प्रत्यक्षतया cloud vendor इत्यस्य उपयोगं कर्तुं शक्नोमि । यदि भवान् तारकाणां उपयोगं करोति तर्हि भवान् स्वयमेव तस्य निर्माणं कर्तव्यः, परन्तु भविष्ये तस्य व्यावसायिकीकरणं निश्चितरूपेण भविष्यति, धनं च ग्रहीतव्यं भविष्यति । मया पूर्वं doris इत्यस्य उपयोगः कृतः, परन्तु starRocks इति न अहं द्रष्टुम् इच्छामि यत् एतत् वास्तवतः अधोलिखितस्य सन्दर्भलिङ्कस्य इव उच्च-प्रदर्शनस्य अस्ति वा, अतः अहं starrocks इति चिनोमि । अस्माकं पूर्वस्मिन् CDH मध्ये hive-presto अथवा kudu-impala इत्यस्य स्थाने तस्य उपयोगं data warehouse इत्यस्य रूपेण कुर्वन्तु।
किं भवन्तः मन्यन्ते यत् starRocks छत्रस्य स्थाने स्थातुं शक्नोति? अहं मन्ये hadoop सेट् २० वर्षपूर्वं किञ्चित् आसीत् यत् hadoop सेट् अत्यधिकं घटकं भवति तस्य लाभः अस्ति यत् प्रायः सर्वे प्रमुखाः दोषाः विगत २० वर्षेषु निवारिताः सन्ति . भवद्भिः hadoop इत्यस्य उपयोगस्य आवश्यकता सर्वथा नास्ति, तस्य स्थाने starRocks इत्यस्य उपयोगः कर्तुं शक्यते ।
बिल्ली /प्रोक/क्पुइन्फो | grep avx2
यदि किमपि मुद्रितं न भवति तर्हि भवान् CPU परिवर्तयितुं शक्नोति ।
Be इति गणनायाः उत्तरदायी यदि भवतां समीपे एषः निर्देशसमूहः नास्ति तर्हि भवान् तत् नियोजयितुं न शक्नोति ।
startrocks [data analysis] कृते [data warehouse] अस्ति, यत् पारम्परिकस्य छत्रस्य स्थाने अस्तिसदिशीकरण,एमएमपी वास्तुकलाइत्यस्यस्तम्भ भण्डारण इञ्जिन,समर्थनम्वास्तविकसमयविश्लेषणम् , समवर्ती गणना।mysql प्रोटोकॉल इत्यनेन सह सङ्गतम्, उपयोक्तुं शक्यतेmysql क्लायन्ट डॉकिंग .समर्थनम्क्षैतिज विस्तार . समग्रप्रणाल्याः बाह्यनिर्भरता नास्ति, अर्थात् प्रबन्धनार्थं zookeeper इत्यस्य आवश्यकता नास्ति, अथवा mysql मध्ये मेटाडाटा विद्यते, केवलं स्वस्य परिपालनस्य आवश्यकता अस्ति ।
इदं व्यवहारसञ्चालनेषु उपयुक्तं नास्ति, यथा अद्यतनीकरणादिक्रियासु विश्लेषणार्थं प्रयुक्तः दत्तांशः लेखनानन्तरं अपरिवर्तितः भवति, यथा लॉगदत्तांशः, अथवा भौतिकपरीक्षाप्रतिवेदनम् इत्यादयः
सदिशीकरणम् : एतत् तथ्यं निर्दिशति यत् दत्तांशस्य सदिशीकरणानन्तरं CPU केवलं एकं द्रव्यं संसाधितुं शक्नोति स्म, परन्तु अधुना एकस्मिन् समये बहुविधं द्रव्यं संसाधितुं शक्नोति ।
एमपीपी आर्किटेक्चर : बृहत्-परिमाणेन समानान्तर-प्रक्रिया-आर्किटेक्चर, एकत्र निष्पादनार्थं बहु-यन्त्रेषु आँकडानां विभाजनं, बृहत्-मात्रायां आँकडानां संसाधनम्
स्तम्भ-भण्डारण-इञ्जिनम् : स्तम्भान् प्रबन्धयति तथा च बृहत्-विस्तार-सारणी-भण्डारणं विश्लेषणं च समर्थयति MySQL उत्तमः नास्ति तथा च यदा अत्यधिकक्षेत्राणि सन्ति तदा स्तम्भान् व्यक्तिगतरूपेण प्रश्नं कर्तुं द्रुतं भवति तथा च स्तम्भान् वास्तविकसमये अद्यतनं कर्तुं शक्यते ।
वास्तविकसमयविश्लेषणम् : प्रश्नविश्लेषणस्य गतिः तुल्यकालिकरूपेण द्रुतगतिः, मिलीसेकेण्ड् स्तरः भवति
Mysql client docking: उदाहरणार्थं, navicat अथवा jdbc प्रत्यक्षतया तस्य सङ्गतिं कर्तुं शक्नोति?सत्यापनीयम्
क्षैतिजविस्तारः : १ यन्त्रम् अतीव दुर्बलम् अस्ति, अहं तस्य विश्लेषणक्षमतां दृढतरं कर्तुं यन्त्राणि निरन्तरं योजयितुं शक्नोमि
समर्थनम्निम्नलिखितम्बी आई डॉकिंग: Tableau, Power BI, FineBI तथा Smartbi इत्यादीनां सहितम्।
वास्तविकसमयदत्तांशगोदामत्वेन सः केवलं [द्वितीय स्तर】दत्तांश समन्वयन, वास्तविकसमयः【मिलीसेकेण्ड् स्तर】जिज्ञासां कुरुत。
प्रणाल्याः कोरस्य केवलं FE (Frontend), BE (Backend) अथवा CN (Compute Node) प्रक्रियाः सन्ति ।
अग्रभागः (प्रदर्शन-अन्तरफलकः), पृष्ठ-अन्तः (तर्कनियन्त्रणम्), नोडः
३.० इत्यस्य अनन्तरं भण्डारणस्य गणनायाश्च पृथक्त्वं समर्थितं भवति, तथा च निरन्तरं दत्तांशः HDFS इत्यत्र संग्रहणीयः भवति । अवश्यं, भवान् भण्डारणं गणनां च एकीकृत्य अपि चयनं कर्तुं शक्नोति ।
३.० इत्यनेन द्वयोः आर्किटेक्चरयोः अपि समर्थनं भवति ।
द्वयोः मध्ये किं भेदः अस्ति यदि भण्डारणं गणना च एकीकृता अस्ति तर्हि भवद्भिः दत्तांशस्य प्रतिलिपिः startRocks इत्यत्र करणीयम् यदि भण्डारणं गणना च पृथक् भवति तर्हि भवान् केवलं HDFS मध्ये प्रत्यक्षतया दत्तांशस्य उपयोगं कर्तुं शक्नोति । प्रतिलिपिं कर्तुं एकं न्यूनं सोपानं भवति, भण्डारणं कम्प्यूटिंग् च पृथक् कृत्वा धनं डिस्कं च रक्षति, विस्तारं कुर्वन् भवद्भिः भण्डारणस्य चिन्ता न करणीयम्, केवलं कम्प्यूटिंग् नोड््स् प्रत्यक्षतया विस्तारयन्तु दोषः अस्ति यत् भवद्भिः बाह्यदत्तांशस्य अतिरिक्तसमूहः परिपालनीयः ।
संकरनियोजनं समर्थितं नास्ति यदि भण्डारणं कम्प्यूटिंग् च एकीकृतं भवति तर्हि भण्डारणं कम्प्यूटिंग् च पृथक् कर्तुं न शक्नुवन्ति ।
Fe समन्वयस्य, सूचीप्रबन्धनस्य च उत्तरदायी अस्ति
उत्तरदायी भवतुसंग्रहणतथागणयतु
Fe (विस्तृत संस्करणम्) २.:
प्रबन्धनस्य उत्तरदायीमेटाडाटा, ग्राहकसंयोजनानि प्रबन्धयति, .प्रश्ननियोजनम्, प्रश्ननिर्धारणम्।
FE मेटाडाटा स्मृतौ संगृह्यते, डिस्कमध्ये अपि प्रतिलिपिः अस्ति ।
एफई इत्यस्य त्रयः भूमिकाः सन्ति, नेता, अनुयायी, पर्यवेक्षकः
नेता निर्वाचितः भवति, पठनस्य लेखनस्य च उत्तरदायित्वं भवति । ततः लेखनस्य अनन्तरं मेटाडाटा अद्यतनं कृत्वा अनुयायिभ्यः पर्यवेक्षकेभ्यः च समन्वयितं भवति ।
Follwer इत्यस्य लेखनस्य अनुमतिः नास्ति, केवलं पठनस्य अनुमतिः अस्ति
Observer, follwer इव, परिनियोजनाय वैकल्पिकं भवति, प्रश्नवेगं सुधारयितुं शक्नोति, निर्वाचनेषु भागं न गृह्णाति, यत् व्याघ्रे अधिकशक्तिं योजयितुं समतुल्यम् अस्ति
Be (विस्तृत संस्करणम्) २.:
प्रत्येकं BE समानं भवति (कोऽपि नेता वा अनुयायी वा नास्ति), परन्तु प्रत्येकं BE भण्डारणस्य गणनायाश्च उत्तरदायी नास्ति, BE च तत् रक्षति, अनुक्रमणिकाः च जनयति ।
Be गणना व्याकरणिकार्थानुसारं sql इत्येतत् तार्किक-एककेषु (code level) विभजति, ततः चदत्तांशवितरणस्य अनुसारम्भौतिक-एककं (हार्डवेयर-स्तरं) भूत्वा ततः स्थानीयतया निष्पादयन्तु ।
मेटाडाटा : एतत् कोऽपि न जानाति यत् सत्यं वक्तुं शक्नोमि यत् अहं तत् लिखितुम् अपि न इच्छामि, केवलं Xiaobai इत्यस्य पालनं कर्तुं। यथा, कीदृशः दत्तांशः, सः स्ट्रिंग् अस्ति वा संख्या वा?
प्रश्ननियोजनम् : योजना कियत् कार्यक्षमतायाः उपभोगं करिष्यति, किं SQL उपयोक्तव्यं, अनुकूलितं कर्तव्यं, भौतिकयोजनायां परिवर्तनं च कर्तव्यम्
प्रश्ननिर्धारणम् : एतां भौतिकयोजनां निष्पादयितुं कः भवेत् इति चिनोतु
starRocks इत्यस्य लघुतमं भण्डारण-एककं tablet इति कथ्यते । वयं स्वयमेव विभाजनं कर्तुं शक्नुमः ततः बकेट् निर्दिष्टुं शक्नुमः ।
चित्रं समयस्तम्भेन विभक्तं भवति, ततः ४ क्षेत्राणां कृते बाल्टीः निर्दिष्टाः भवन्ति (४ स्तम्भाः, वस्तुतः १ स्तम्भस्य उपयोगः कर्तुं शक्यते), ततः ३ प्रतिकृतयः निर्दिष्टाः भवन्ति, तथा च प्रत्येकस्य स्तम्भस्य दत्तांशः, प्रत्येकस्य दत्तांशस्य एककस्य च भवति भिन्न-भिन्न अण्डर नोड् मध्ये वितरितम्। A-1, A-2, A-3 च सर्वे समानाः दत्तांशाः सन्ति, A इत्यस्य बैकअपाः च सन्ति ।
यदा विस्तारितं भवति तदा सेवां स्थगयितुं आवश्यकता नास्ति ।
परिचयं कृतवान्【 .cache】 २.concept, Be [केवलं] गणनायाः उत्तरदायी, ततःनाम परिवर्तनं कृत्वा Cn(गणना नोड-गणना नोड)
संग्रहणम् : प्रश्नावृत्तिः आधारीकृत्य आँकडा स्वयमेव संग्रहणीयः भविष्यति ।गतिशील परिवर्तनम्
गतिशीलपरिवर्तनानि : ३ स्तरेषु विभक्ताः, स्मृतिः, स्थानीयः, बाह्यस्रोतः च । उष्णतमः दत्तांशः स्मृतौ भवति, ततः शेषः स्थानीयडिस्कमध्ये भवति, ततः शीतलदत्तांशः (अल्पप्रयुक्तः) बाह्यस्रोतेषु भवति ।भवतः अभिगमन-आवृत्तेः आधारेण गतिशील-दत्तांश-समायोजनम्
पृथक् भण्डारणं गणना च उपयुज्य सारणीं निर्मायन्ते सति भवद्भिः तस्मै वक्तव्यं यत् caching सक्षमं कर्तव्यं वा इति ।
निम्नलिखितपृष्ठभूमिभण्डारणं समर्थितम् अस्ति:
अत्र आधिकारिकजालस्थलस्य सिस्टम् आर्किटेक्चरविषये प्रत्येकं वाक्यं मया स्वशब्देषु समाप्तम्। अधः निर्माणं आरभत।
भवतः कृते वातावरणं संकुलयितुं docker container इत्यस्य उपयोगं करोति, अतः प्रत्यक्षतया आरभ्यतुं शक्यते ।
प्रथमं docker, न्यूनातिन्यूनं 4G मेमोरी, 10GB स्पेस च संस्थापयन्तु।
अस्माकं सर्वरस्य CPU avx2 समर्थयति न अत्र अहं वर्चुअल् मशीन् चालयामि तथा च Windows इत्यत्र Ubuntu.22 प्राप्तुं योजनां करोमि, यतः मम व्यक्तिगतसङ्गणकं avx2 समर्थयति । ---यदा अहं डाउनलोड् कृत्वा समाप्तं करोमि तदा शेषं लेखितुं आरभेयम्।
refer to : १.