La gestione dei database nell'era dei big data: l'importanza del database sharding e della separazione tra lettura e scrittura

2024-07-12

Prefazione

I termini "sharding" e "suddivisione del database" sono spesso menzionati nel campo del database, in genere si riferiscono a concetti simili, ma differiscono nei dettagli. Lo sharding del database si riferisce solitamente alla distribuzione dei dati in un database di grandi dimensioni su più database più piccoli per migliorare le prestazioni e la gestibilità. La suddivisione del database, d'altro canto, si riferisce più in generale alla scomposizione di un sistema di database in parti più piccole, che può includere lo sharding del database o altri tipi di suddivisione, come lo sharding delle tabelle.

Ecco le differenze tra lo sharding e la suddivisione del database:

caratteristica	Condivisione del database	Divisione del database
definizione	Distribuire i dati su più istanze di database fisici.	Suddividere il sistema di database in entità più piccole.
Scopo	Migliora le prestazioni, la scalabilità e la tolleranza agli errori.	Migliora le prestazioni, la gestione e la scalabilità.
tipo	Include principalmente la divisione orizzontale e la divisione verticale.	Compresi sottodatabase, sottotabella, suddivisione orizzontale, suddivisione verticale, ecc.
diviso orizzontalmente	È una forma di sharding che divide i dati per righe.	Probabilmente parte di una suddivisione del database.
diviso verticalmente	È una forma di sharding che divide i dati per colonne.	Probabilmente parte di una suddivisione del database.
complessità implementativa	È necessaria una logica di routing aggiuntiva e di livello superiore.	Dipende dal metodo di divisione specifico.
Influenza	Potrebbe essere necessario modificare il codice del livello dell'applicazione per adattarlo alla libreria secondaria.	Potrebbe essere necessario modificare il codice del livello dell'applicazione per adattarlo alle modifiche.
esempio	Memorizzare i dati di utenti diversi in database diversi, ad esempio assegnarli a database diversi in base al valore hash dell'ID utente.	Dividere una tabella di grandi dimensioni in più tabelle più piccole oppure dividere verticalmente i dati in tabelle o librerie diverse. Suddivisione verticale: memorizza le informazioni sull'utente e le informazioni sull'ordine in diversi database; suddivisione orizzontale: memorizza la tabella degli ordini in diversi database in base all'intervallo ID ordine.

Esempio di biblioteca di filiale


-- 分库示例：将订单信息按照用户ID的哈希值存储到不同的数据库
-- 数据库1
CREATE DATABASE orders_db_1;
USE orders_db_1;
 
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    user_id INT,
    total_amount DECIMAL(10, 2),
    order_date DATE
);
 
-- 数据库2
CREATE DATABASE orders_db_2;
USE orders_db_2;
 
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    user_id INT,
    total_amount DECIMAL(10, 2),
    order_date DATE
);

Esempio di suddivisione del database


-- 垂直拆分示例：将用户信息表和订单信息表分离到不同的数据库
-- 主数据库
CREATE DATABASE main_database;
USE main_database;
 
-- 用户信息表
CREATE TABLE users (
    user_id INT PRIMARY KEY,
    username VARCHAR(50),
    email VARCHAR(100)
);
 
-- 订单信息表
CREATE DATABASE orders_database;
USE orders_database;
 
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    user_id INT,
    total_amount DECIMAL(10, 2),
    order_date DATE
);

Il partizionamento del database e la suddivisione del database vengono utilizzati in diversi scenari per soddisfare esigenze aziendali e sfide tecniche specifiche:

Scene	Condivisione del database	Divisione del database
Il volume dei dati è troppo grande	Quando la quantità di dati in un singolo database supera le capacità di archiviazione o elaborazione di un singolo server.	Quando la dimensione di una tabella di database influisce sulle prestazioni delle query.
Collo di bottiglia delle prestazioni	Quando si riscontrano operazioni di lettura e scrittura simultanee elevate, un singolo database non può fornire una velocità effettiva sufficiente.	Le operazioni di lettura e scrittura su una singola tabella iniziano a rallentare, influenzando i tempi di risposta dell'applicazione.
Requisiti di scalabilità	Il database deve essere espanso orizzontalmente per migliorare le prestazioni aggiungendo più nodi di database.	I dati devono essere suddivisi verticalmente per ridurre il carico su un singolo database e semplificare la gestione.
Disaster recovery e ripristino	In un ambiente distribuito, la capacità di ripristino di emergenza e il ripristino rapido del sistema possono essere migliorati tramite lo sharding.	Suddividendo il database, puoi eseguire più facilmente il backup e il ripristino di parti dei tuoi dati.
Relativo alla logica aziendale	Non è adatto a scenari con query complesse tra tabelle, perché la latenza e la complessità della rete potrebbero aumentare dopo lo sharding del database.	I dati possono essere suddivisi in base alla logica aziendale in modo che i dati correlati vengano archiviati insieme e le query tra database vengano ridotte.
Adeguamento dell'architettura del sistema	Quando l'architettura del sistema deve supportare il calcolo distribuito e l'elaborazione dei dati su larga scala.	Quando le strutture dati devono essere riorganizzate per ottimizzare una query o un'operazione specifica.
Controllo dei costi	È possibile utilizzare risorse hardware economiche tramite lo sharding per ridurre il costo totale di proprietà.	Ottimizzando l'archiviazione dei dati e i modelli di accesso, è possibile risparmiare risorse di archiviazione e di elaborazione.
Isolamento e sicurezza dei dati	L'isolamento fisico dei dati può essere ottenuto tramite lo sharding geografico per soddisfare i requisiti normativi.	I dati possono essere suddivisi per sensibilità o frequenza di accesso per un controllo di sicurezza più granulare.

Sebbene sia il partizionamento del database che la suddivisione del database possano essere utilizzati per risolvere i problemi di cui sopra, i loro obiettivi sono diversi. I sottodatabase sono più propensi a risolvere l'archiviazione e l'elaborazione di dati su larga scala, nonché a migliorare la scalabilità e le capacità di ripristino di emergenza del sistema. La suddivisione del database si concentra maggiormente sull'ottimizzazione dell'organizzazione dei dati e dei modelli di accesso e sulla semplificazione della gestione del database.

Condivisione della tecnologia