Hive-osio table_developdoc

Hive-osiopöytä

2024-07-12

1. Osiotaulukko:

Se on Hiven taulukkotyyppi Jakamalla taulukon tiedot useisiin osajoukkoon (osioihin), jokainen osio vastaa tiettyä sarakkeen arvoa taulukossa, kyselyn suorituskykyä ja tiedonhallinnan tehokkuutta voidaan parantaa. Osioidun taulukon jokainen osio on tallennettu erilliseen hakemistoon, ja osio määritellään yhden tai useamman taulukon sarakkeen perusteella. Osioitujen taulukoiden käytön päätarkoitus on vähentää kyselyillä tarkistettavan tiedon määrää, mikä parantaa kyselyn tehokkuutta.

Liiallinen osiointi voi aiheuttaa suuren määrän pieniä tiedostoja, mikä vaikuttaa HDFS:n suorituskykyyn ja MapReduce-tehtävien tehokkuuteen. Pienet tiedostojen yhdistämistoiminnot on suoritettava säännöllisesti.


CREATE TABLE customer_data (
  customer_id STRING,
  name STRING,
  age INT,
  email STRING
)
PARTITIONED BY (city STRING)
STORED AS ORC;
 
select *
from customer_data;
 
-- 插入 New York 的数据
INSERT INTO TABLE customer_data PARTITION (city='New York')
VALUES
('1', 'John Doe', 30, '[email protected]'),
('2', 'Jane Smith', 25, '[email protected]'),
('3', 'Bob Johnson', 40, '[email protected]');
 
-- 插入 Los Angeles 的数据
INSERT INTO TABLE customer_data PARTITION (city='Los Angeles')
VALUES
('4', 'Alice Brown', 32, '[email protected]'),
('5', 'Charlie Davis', 28, '[email protected]');
 
-- 插入 Chicago 的数据
INSERT INTO TABLE customer_data PARTITION (city='Chicago')
VALUES
('6', 'Eve White', 45, '[email protected]'),
('7', 'Frank Black', 37, '[email protected]');

Voit nähdä, että HDFS:lle on luotu kolme hakemistoa, jotka vastaavat kolmea osiota. Valitse, missä ehdoilla kysely etsii tietoja suoraan vastaavista osiohakemistoista, mikä vähentää kyselyn tarkistamien tietojen määrää ja parantaa suorituskykyä.

SELECT * FROM customer_data WHERE city='New York';

2. Kauhapöytä:

Se on toinen taulukkotyyppi Hiven tiivistämällä tiedot taulukossa, kyselyn suorituskykyä voidaan edelleen parantaa, etenkin kun suoritetaan liitos- ja yhdistämistoimintoja. Säilöntätaulukot jakavat tiedot kiinteään määrään säilöitä, ja kukin segmentti tallennetaan erilliseen tiedostoon.
--------------------------------------------------- -Ämpäripöydän ominaisuudet--------------------------------------------- --------
Tietojen osiointi: Jaa tiedot kiinteään määrään ryhmiä yhden tai useamman sarakkeen hash-arvon perusteella.
Tiedoston tallennus: Kunkin ämpärin tiedot tallennetaan erilliseen tiedostoon.
Tasainen jakautuminen: Ihannetapauksessa tiedot jakautuvat tasaisesti kaikkiin ryhmiin, mikä parantaa kyselyn suorituskykyä.


CREATE TABLE customer_data2 (
  customer_id STRING,
  name STRING,
  age INT,
  email STRING
)
CLUSTERED BY (customer_id) INTO 4 BUCKETS
STORED AS ORC;
-- 插入数据到分桶表
--通过这些步骤，我们创建了一个按 customer_id 列进行分桶的 Hive 表 customer_data，并插入了具体的数据。
INSERT INTO TABLE customer_data2 VALUES
('1', 'John Doe', 30, '[email protected]'),
('2', 'Jane Smith', 25, '[email protected]'),
('3', 'Bob Johnson', 40, '[email protected]'),
('4', 'Alice Brown', 32, '[email protected]'),
('5', 'Charlie Davis', 28, '[email protected]'),
('6', 'Eve White', 45, '[email protected]'),
('7', 'Frank Black', 37, '[email protected]'),
('8', 'Grace Green', 22, '[email protected]');
 
select *
from customer_data2;

Tarkastelemalla polkua HDFS:ssä voimme nähdä, että tiedot jaetaan eri ryhmiin vastaavan sarakkeen hash-arvon mukaan.

Teknologian jakaminen

Hive-osiopöytä

1. Osiotaulukko:

2. Kauhapöytä:

Henkilökohtainen profiili

yhteystietoni