starRocks build_developdoc

costruzione di starRocks

2024-07-12

L’azienda vuole utilizzare una nuova architettura Big Data e prevede di sostituire le piattaforme Big Data straniere con quelle nazionali. Quindi qui sono confuso se utilizzare doris o starrocks. Se utilizzo doris, poiché è open source, in futuro potrò utilizzare direttamente il fornitore del cloud. Se usi Starrocks, devi costruirtelo da solo, ma sarà sicuramente commercializzato in futuro e dovrai farti pagare. Ho già usato Doris, ma non StarRocks. Volevo provare a vedere se è davvero performante come il link di riferimento qui sotto, quindi ho scelto StarRocks. Usalo come data warehouse per sostituire hive-presto o kudu-impala nel nostro precedente CDH.

Pensi che starRocks possa sostituire hive? Penso che sia possibile. Il set Hadoop era qualcosa di cui Google si era stancato 20 anni fa. Il vantaggio è che è molto stabile Quasi tutti i principali bug riscontrati sono stati risolti negli ultimi 20 anni . Non è necessario utilizzare Hadoop, puoi invece utilizzare StarRocks.

Controlla se la CPU supporta

gatto /proc/cpuinfo | grep avx2

Se non viene stampato nulla, puoi cambiare la CPU.

Be è responsabile del calcolo. Se non disponi di questo set di istruzioni, non puoi distribuirlo.

introdurre

startrocks è un [data warehouse] per [l'analisi dei dati], che può sostituire il tradizionale alvearevettorizzazione，Architettura MMPDiMotore di archiviazione a colonne,supportoanalisi in tempo reale , calcolo simultaneo.Compatibile con il protocollo mysql, può essere utilizzatoaggancio del client mysql .supportoEspansione orizzontale . L'intero sistema non ha dipendenze esterne, cioè non ha bisogno di zookeeper per la gestione, o i metadati esistono in mysql, deve solo mantenersi.

Non è adatto per operazioni di transazione, come aggiornamenti e altre operazioni. I dati utilizzati per l'analisi rimangono invariati dopo essere stati scritti, come dati di registro o rapporti di esami fisici, ecc.

Vettorializzazione: si riferisce al fatto che dopo aver vettorizzato i dati, la CPU poteva elaborare solo un elemento, ma ora può elaborare più elementi contemporaneamente.

Architettura MPP: architettura di elaborazione parallela su larga scala, suddivisione dei dati su più macchine per l'esecuzione insieme, elaborazione di grandi quantità di dati

Motore di archiviazione delle colonne: gestisce le colonne e supporta l'archiviazione e l'analisi di tabelle di grande larghezza non è buono e si collassa quando ci sono troppi campi. L'interrogazione delle colonne individualmente è veloce e le colonne possono essere aggiornate in tempo reale.

Analisi in tempo reale: la velocità di analisi delle query è relativamente veloce, a livello di millisecondi

Docking client MySQL: ad esempio, navicat o jdbc possono collegarsi direttamente ad esso?Da verificare

Espansione orizzontale: 1 macchina è troppo debole, posso continuare ad aggiungere macchine per rafforzare la sua capacità di analisi

supportoil seguenteAggancio BI: Compresi Tableau, Power BI, FineBI e Smartbi.

Essendo un data warehouse in tempo reale, può solo [Secondo livello】Sincronizza i dati, può in tempo realelivello di millisecondi】Chiedere informazioni。

Architettura del sistema (da leggere per la manutenzione e la costruzione)

Il nucleo del sistema ha solo processi FE (Frontend), BE (Backend) o CN (Compute Node).

Front-end (interfaccia display), back-end (controllo logico), nodo

Dopo la versione 3.0, è supportata la separazione tra archiviazione e calcolo e i dati persistenti devono essere archiviati su HDFS. Naturalmente potete anche scegliere di integrare archiviazione e calcolo.

3.0 supporta inoltre entrambe le architetture.

Qual è la differenza tra i due? Se l'archiviazione e il calcolo sono integrati, è necessario copiare i dati su startRocks Se l'archiviazione e il calcolo sono separati, è possibile utilizzare direttamente i dati in HDFS. C'è un passaggio in meno da copiare. La separazione dello spazio di archiviazione e di elaborazione consente di risparmiare denaro e dischi e consente una migliore espansione dinamica. Non devi preoccuparti dello spazio di archiviazione durante l'espansione, basta espandere direttamente i nodi di elaborazione. Lo svantaggio è che è necessario mantenere un set aggiuntivo di dati esterni.

La distribuzione ibrida non è supportata Se l'archiviazione e l'elaborazione sono integrate, non è possibile separare l'archiviazione e l'elaborazione.

Fe è responsabile del coordinamento e della gestione del catalogo

Archiviazione e calcolo integrati

Sii responsabilemagazzinaggioEcalcolare

Fe (versione dettagliata)：

Responsabile della gestionemetadati, gestire le connessioni client,pianificazione delle interrogazioni, pianificazione delle query.

I metadati FE vengono archiviati in memoria ed è presente anche una copia su disco.

La FE ha tre ruoli: leader, seguace, osservatore

Il Leader è eletto ed è responsabile della lettura e della scrittura. Quindi, dopo la scrittura, i metadati vengono aggiornati e sincronizzati con i follower e gli osservatori. Solo la metà dei follower ha successo.

Il follower non ha il permesso di scrittura, ma solo il permesso di lettura

L'osservatore, come il follower, è facoltativo da implementare, può migliorare la velocità delle query e non partecipa alle elezioni, il che equivale ad aggiungere più potere a una tigre.

Be (versione dettagliata)：

Ogni BE è uguale (nessun leader o follower), ma non ogni BE ha dati completi. BE è responsabile dell'archiviazione e del calcolo. FE assegna i dati a BE e BE li salva e genera indici.

Il calcolo dividerà SQL in unità logiche (livello di codice) in base al significato grammaticale, quindiSecondo la distribuzione dei datiDiventa un'unità fisica (a livello hardware) e quindi eseguila localmente.

Metadati: nessuno lo sa, ad essere sincero, non voglio nemmeno scriverlo, solo per prendermi cura di Xiaobai. Ad esempio, che tipo di dati sono, se sono una stringa o un numero? Si tratta di metadati, i dati utilizzati per modificare i dati.

Pianificazione delle query: quante prestazioni consumerà il piano, quale SQL dovrebbe essere utilizzato, ottimizzato e convertito in un piano fisico

Pianificazione delle query: scegli quale eseguire questo piano fisico

Gestione integrata dei dati di archiviazione, calcolo e prelievo

L'unità di archiviazione più piccola di starRocks si chiama tablet. Possiamo partizionarci e quindi specificare i bucket.

L'immagine viene partizionata in base alla colonna dell'ora, quindi vengono specificati i bucket per 4 campi (4 colonne, infatti, è possibile utilizzare 1 colonna), quindi vengono specificate 3 copie e vengono specificati i dati di ciascuna colonna e ciascuna unità di dati distribuiti in diversi sottonodi. A-1, A-2 e A-3 sono tutti gli stessi dati e sono backup di A.

Quando si espande, non è necessario interrompere il servizio. L'aggiunta di nodi verrà migrata automaticamente e quando il numero di nodi diminuisce, i dati verranno automaticamente distribuiti uniformemente.

Separazione di archiviazione e calcolo

introdotto【cache]concetto, Be è [solo] responsabile del calcolo, e poiRinominato Cn(nodo di calcolo-nodo di calcolo)

Caching: i dati verranno automaticamente memorizzati nella cache in base alla frequenza delle query.Cambiamenti dinamici

Modifiche dinamiche: divise in 3 livelli, memoria, locale e fonte esterna. I dati più importanti si trovano in memoria, il resto si trova sul disco locale e infine i dati meno utilizzati (utilizzati meno frequentemente) si trovano in fonti esterne.Regolazione dinamica dei dati in base alla frequenza di accesso

Quando si crea una tabella utilizzando archiviazione e calcolo separati, è necessario dirgli se abilitare la memorizzazione nella cache.

È supportato il seguente spazio di archiviazione back-end:

Sistema di storage di oggetti compatibile con il protocollo AWS S3 (supporta i principali sistemi di storage di oggetti come AWS S3, Google GCP, Alibaba Cloud OSS, Tencent Cloud COS, Baidu Cloud BOS, Huawei Cloud OBS e MinIO, ecc.)
Archiviazione BLOB di Azure
HDFS distribuito nei data center tradizionali

Ho finito qui ogni frase sull'architettura di sistema del sito ufficiale con parole mie. Inizia a costruire qui sotto.

Esperienza di avvio rapido

Utilizza un contenitore docker per impacchettare l'ambiente per te, in modo che possa essere avviato direttamente.

Prima installa la finestra mobile, almeno 4G di memoria e 10 GB di spazio.

La CPU del nostro server non supporta avx2 Qui sto utilizzando una macchina virtuale e ho intenzione di ottenere un Ubuntu.22 su Windows, perché il mio personal computer supporta avx2. ---Quando avrò finito di scaricare, inizierò a scrivere il resto.

fare riferimento a:

📚 【源码解析】StarRocks 查询优化系列文章 - 原理解读 - StarRocks中文社区论坛

Le stelle rocciose | Le stelle rocciose

Prerequisiti di distribuzione |

Italiano: Italiano: https://www.cnblogs.com/huanghanyu/p/18186894

Condivisione della tecnologia