моя контактная информация
Почтамезофия@protonmail.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Hive поддерживает несколько типов данных, разделенных на две категории: примитивные типы данных и сложные типы данных. Ниже приведены типы данных, поддерживаемые Hive:
1. Целочисленный тип:
крошечный_инт: 1-байтовое целое число со знаком
маленький: 2-байтовое целое число со знаком
инт: 4-байтовое целое число со знаком
bigint: 8-байтовое целое число со знаком
плавать: 4-байтовое число одинарной точности с плавающей запятой
двойной: 8-байтовое число двойной точности с плавающей запятой
десятичная дробь: Можно указать тип числа высокой точности, точность и масштаб, например десятичное (10,2).
Байт: одна из самых основных единиц хранения данных в компьютерах, 1 байт занимает 8 бит, диапазон данных: отрицательный диапазон: от -128 до -1, положительный диапазон: от 0 до 127.
2. Тип строки:
нить: строка переменной длины
varchar: Строка переменной длины с ограничением максимальной длины, например varchar(255).
символ: Строка фиксированной длины, например char(10)
3.Тип даты/времени:
временная метка: Временная метка, содержащая дату и время с точностью до наносекунд.
дата: Содержит только часть даты, а не часть времени
интервал: Интервал времени, используемый для обозначения разницы между двумя датами или временем.
4. Логический тип:
булев: логическое значение, значение true или false
5. Бинарный тип:
двоичный: массив байтов произвольной длины
множество<T> : Упорядоченный список, содержащий несколько элементов одного типа, например массив.<int>
карта<K, V> : Неупорядоченная коллекция пар ключ-значение, где ключ и значение могут быть любым типом данных, например картой.<string, int>
структура<col1: type1, col2: type2, ...> : Записи, содержащие несколько полей, каждое поле может иметь разный тип данных, например.структура<name: string, age: int>
- CREATE TABLE example_table (
- tinyint_col tinyint,
- smallint_col smallint,
- int_col int,
- bigint_col bigint,
- float_col float,
- double_col double,
- decimal_col decimal(10, 2),
- string_col string,
- varchar_col varchar(255),
- char_col char(10),
- timestamp_col timestamp,
- date_col date,
- boolean_col boolean,
- binary_col binary,
- array_col array<int>,
- map_col map<string, int>,
- struct_col struct<name: string, age: int>,
- union_col uniontype<int, string>
- );
Форматы хранения hive делятся на две категории:
Тип обычного текстового файла: текстовый файл, который не сжимается и также является форматом хранения по умолчанию для куста.
Одна категория — хранилище двоичных файлов:
файл последовательности: будет сжат, и данные невозможно загрузить с помощью метода загрузки.
orcfile: будет сжат, и данные невозможно загрузить с помощью метода загрузки.
паркет: будет сжат, и данные невозможно загрузить с помощью метода загрузки.
rcfile: он может сжимать и не может загружать данные с помощью метода загрузки. Это низкая конфигурация orcfile.
Форматы хранения текстового файла и файла последовательности основаны на хранении строк; orc и parquet основаны на хранении столбцов, а rcfile представляет собой смешанное хранилище строк и столбцов.
При создании таблицы вы можете использовать «stored as parquet», чтобы указать формат хранения таблицы, например:
- create table if not exists stocks_parquet (
- track_time string,
- url string,
- session_id string,
- referer string,
- ip string,
- end_user_id string,
- city_id string
- )
- stored as parquet;
Измените формат хранения куста по умолчанию:
- <property>
- <name>hive.default.fileformat</name>
- <value>TextFile</value>
- <description>
- Expects one of [textfile, sequencefile, rcfile, orc].
- Default file format for CREATE TABLE statement. Users can explicitly override it by CREATE TABLE ... STORED AS [FORMAT]
- </description>
- </property>
- 也可以使用set方式修改:
- set hive.default.fileformat=TextFile