starRocks build_developdoc

starRocks rakentaa

2024-07-12

Yhtiö haluaa käyttää uutta big data -arkkitehtuuria ja suunnittelee korvaavansa ulkomaiset big data -alustat kotimaisilla. Joten tässä olen hämmentynyt siitä, käytänkö doria vai starrockia. Jos käytän doria, koska se on avoimen lähdekoodin, voin käyttää suoraan pilvitoimittajaa tulevaisuudessa. Jos käytät starrockeja, sinun on rakennettava se itse, mutta se tullaan varmasti kaupallistamaan tulevaisuudessa ja joudut veloittamaan rahaa. Olen käyttänyt doria ennenkin, mutta en starRocksia. Halusin kokeilla onko se todella yhtä tehokas kuin alla oleva linkki, joten valitsin starrockin. Käytä sitä tietovarastona korvaamaan hive-presto tai kudu-impala aiemmassa CDH:ssa.

Luuletko, että starRocks voi korvata pesän? Minusta se on mahdollista, että Google kyllästyi 20 vuotta sitten. Hadoop-sarjan etuna on, että se on erittäin vakaa . Sinun ei tarvitse käyttää hadoopia ollenkaan, voit käyttää sen sijaan starRocksia.

Tarkista, tukeeko CPU

cat /proc/cpuinfo | grep avx2

Jos mitään ei tulostu, voit vaihtaa suorittimen.

Be on vastuussa laskemisesta, jos sinulla ei ole tätä ohjesarjaa, et voi ottaa sitä käyttöön.

esitellä

startrocks on [tietovarasto] [data-analyysille], joka voi korvata perinteisen pesänvektorointi，MMP-arkkitehtuuri/Pylväsvarastomoottori,tukireaaliaikainen analyysi , samanaikainen laskenta.Yhteensopiva mysql-protokollan kanssa, voidaan käyttäämysql-asiakastelakointi .tukiVaakasuuntainen laajennus . Koko järjestelmällä ei ole ulkoisia riippuvuuksia, eli se ei tarvitse zookeeperia hallitakseen tai metadataa on mysqlissä, sen tarvitsee vain ylläpitää itseään.

Se ei sovellu transaktiotoimintoihin, kuten päivityksiin ja muihin toimintoihin.

Vektorisointi: viittaa siihen, että tietojen vektoroinnin jälkeen CPU pystyi käsittelemään vain yhden kohteen, mutta nyt se voi käsitellä useita kohteita samanaikaisesti.

MPP-arkkitehtuuri: Laajamittainen rinnakkaiskäsittely-arkkitehtuuri, tietojen jakaminen useille koneille suoritettaviksi yhdessä, suurten tietomäärien käsittely

Sarakkeiden tallennuskone: hallitsee sarakkeita ja tukee laajan levyisen taulukon tallennusta ja analysointia, ja se romahtaa, kun kenttiä on liikaa.

Reaaliaikainen analyysi: kyselyanalyysin nopeus on suhteellisen nopea, millisekunnin tasolla

Mysql-asiakastelakointi: Voiko esimerkiksi navicat tai jdbc linkittää siihen suoraan?Varmennettavaksi

Vaakalaajennus: 1 kone on liian heikko, voin jatkaa koneiden lisäämistä vahvistaakseni hänen analysointikykyään

tukiseuraavatBI-telakka: Sisältää Tableau, Power BI, FineBI ja Smartbi.

Reaaliaikaisena tietovarastona hän voi vain [Toinen taso】Synkronoi tiedot, voi reaaliajassa【millisekunnin taso】Tiedustella。

Järjestelmäarkkitehtuuri (täytyy lukea ylläpitoa ja rakentamista varten)

Järjestelmän ytimessä on vain FE (Frontend), BE (Backend) tai CN (Compute Node) -prosessit.

Etuosa (näyttöliittymä), taustaosa (loginen ohjaus), solmu

3.0:n jälkeen tallennuksen ja laskennan erottamista tuetaan, ja pysyvät tiedot on tallennettava HDFS:ään. Voit tietysti myös integroida tallennuksen ja laskennan.

3.0 tukee myös molempia arkkitehtuureja.

Mitä eroa on näillä kahdella, jos tallennus ja laskenta on integroitu, sinun on kopioitava tiedot startRocksiin. Jos tallennus ja laskenta erotetaan, voit käyttää tietoja suoraan HDFS:ssä. Tallennustilan ja tietojen erottelu säästää rahaa ja levyjä ja mahdollistaa paremman dynaamisen laajentamisen. Sinun ei tarvitse huolehtia tallennustilasta laajennettaessa. Haittana on, että sinun on ylläpidettävä ylimääräistä ulkoista dataa.

Hybridikäyttöä ei tueta, jos tallennus ja tietojenkäsittely on integroitu, et voi erottaa tallennustilaa ja tietojenkäsittelyä.

Fe vastaa koordinoinnista ja luettelon hallinnasta

Integroitu tallennus ja laskenta

Ole vastuullinenvarastointijalaskea

Fe (yksityiskohtainen versio)：

Vastuu hallinnostametatiedot, hallitse asiakasyhteyksiä,kyselyn suunnittelu, kyselyn ajoitus.

FE-metatiedot tallennetaan muistiin, ja niistä on myös kopio levylle.

FE:llä on kolme roolia: johtaja, seuraaja, tarkkailija

Johtaja valitaan ja vastaa lukemisesta ja kirjoittamisesta. Sen jälkeen metatiedot päivitetään ja synkronoidaan seuraajille ja tarkkailijoille. Vain puolet seuraajista onnistuu.

Seuraajalla ei ole kirjoitusoikeutta, vain lukuoikeus

Observer, kuten Follwer, on valinnainen käyttöönotto, se voi parantaa kyselyn nopeutta, eikä se osallistu vaaleihin, mikä vastaa tiikerin tehon lisäämistä.

Ole (yksityiskohtainen versio)：

Jokainen BE on sama (ei johtajaa tai seuraajaa), mutta jokaisella BE:llä ei ole täydellisiä tietoja, FE allokoi tiedot BE:lle ja BE tallentaa ne.

Be-laskenta jakaa sql:n loogisiin yksiköihin (kooditaso) kieliopillisen merkityksen mukaan ja sittenTietojen jakautumisen mukaanRyhdy fyysiseksi yksiköksi (laitteistotaso) ja suorita sitten paikallisesti.

Metadata: Kukaan ei tiedä tätä Rehellisesti sanottuna, en edes halua kirjoittaa sitä, vain huolehtiakseni Xiaobaista. Esimerkiksi minkä tyyppistä dataa se on, onko se merkkijono vai numero Tämä on metadata, dataa, jota käytetään tietojen muokkaamiseen?

Kyselysuunnittelu: kuinka paljon suorituskykyä suunnitelma kuluttaa, mitä SQL:ää tulisi käyttää, optimoida ja muuntaa fyysiseksi suunnitelmaksi

Kyselyn ajoitus: valitse kumpi haluat suorittaa tämän fyysisen suunnitelman

Integroitu tiedonhallinta tallennuksen, laskennan ja poistamisen

StarRocksin pienintä tallennusyksikköä kutsutaan tabletiksi. Voimme osioida itsemme ja määrittää sitten ämpärit.

Kuva ositetaan aikasarakkeen mukaan ja sitten määritetään 4 kenttään sämpöt (4 saraketta, itse asiassa 1 saraketta voidaan käyttää), ja sitten määritetään 3 kopiota ja kunkin sarakkeen tiedot ja kunkin tietoyksikön tiedot määritetään. jaettu eri alle solmuihin. A-1, A-2 ja A-3 ovat kaikki samoja tietoja ja ovat A:n varmuuskopioita.

Kun se laajenee, palvelua ei tarvitse pysäyttää Solmujen lisääminen siirtyy automaattisesti, ja kun solmujen määrä vähenee, tiedot jakautuvat automaattisesti tasaisesti.

Varastoinnin ja laskennan erottaminen

otettu käyttöön【kätkö】käsite, Be on [vain] vastuussa laskemisesta, ja sittenNimetty uudelleen Cn(laske solmu-laske solmu)

Välimuisti: Tiedot tallennetaan automaattisesti välimuistiin kyselytiheyden perusteella.Dynaamiset muutokset

Dynaamiset muutokset: jaettu 3 tasoon, muisti, paikallinen ja ulkoinen lähde. Kuumimmat tiedot ovat muistissa, sitten loput paikallisella levyllä ja sitten kylmät tiedot (harvemmin käytetty) ovat ulkoisissa lähteissä.Dynaaminen tietojen säätö pääsytaajuuteen

Kun luot taulukkoa käyttämällä erillistä tallennustilaa ja laskentaa, sinun on kerrottava hänelle, otetaanko välimuisti käyttöön.

Seuraavaa taustatallennustilaa tuetaan:

AWS S3 -protokollan kanssa yhteensopiva objektien tallennusjärjestelmä (tukee yleisiä objektien tallennusjärjestelmiä, kuten AWS S3, Google GCP, Alibaba Cloud OSS, Tencent Cloud COS, Baidu Cloud BOS, Huawei Cloud OBS ja MinIO jne.)
Azure Blob -tallennustila
HDFS käytössä perinteisissä datakeskuksissa

Olen lopettanut täällä jokaisen virallisen verkkosivuston järjestelmäarkkitehtuuria koskevan virkkeen omin sanoin. Aloita rakentaminen alta.

Pikakäynnistyskokemus

Se käyttää telakointikonttia ympäristön pakkaamiseen puolestasi, joten se voidaan käynnistää suoraan.

Asenna ensin telakointiasema, vähintään 4G-muisti ja 10 Gt tilaa.

Palvelimemme CPU ei tue avx2:ta. Käytän tässä virtuaalikonetta ja aion hankkia Ubuntu.22:n Windowsiin, koska henkilökohtainen tietokoneeni tukee avx2:ta. ---Kun saan latauksen valmiiksi, alan kirjoittaa loput.

viitata:

📚 【源码解析】StarRocks 查询优化系列文章 - 原理解读 - StarRocks中文社区论坛

StarRocks | StarRocks

Käyttöönoton edellytykset |

https://www.cnblogs.com/huanghanyu/p/18186894

Teknologian jakaminen