Движок таблиц Hive
Движок Hive позволяет выполнять запросы SELECT к таблицам HDFS Hive. В настоящее время поддерживаются следующие форматы входных данных:
-
Text: поддерживает только простые скалярные типы колонок, за исключением
binary -
ORC: поддерживает простые скалярные типы колонок, за исключением
char; поддерживает только сложные типы, такие какarray -
Parquet: поддерживает все простые скалярные типы колонок; поддерживает только сложные типы, такие как
array
Создание таблицы
Подробное описание запроса CREATE TABLE смотрите здесь.
Структура таблицы может отличаться от структуры исходной таблицы Hive:
- Имена колонок должны быть такими же, как в исходной таблице Hive, но вы можете использовать только некоторые из этих колонок и в любом порядке, также вы можете использовать некоторые колонки-алиасы, вычисляемые из других колонок.
- Типы колонок должны быть такими же, как в исходной таблице Hive.
- Выражение секционирования должно соответствовать исходной таблице Hive, и колонки в выражении секционирования должны присутствовать в структуре таблицы.
Параметры движка
-
thrift://host:port— адрес Hive Metastore -
database— имя удаленной базы данных. -
table— имя удаленной таблицы.
Пример использования
Как использовать локальное кеширование для файловой системы HDFS
Мы настоятельно рекомендуем включить локальное кеширование для удаленных файловых систем. Бенчмарки показывают, что с кешем работа происходит почти в 2 раза быстрее.
Перед использованием кеша добавьте его в config.xml
- enable: ClickHouse будет поддерживать локальный кеш для удаленной файловой системы (HDFS) после запуска, если установлено значение true.
- root_dir: Обязательно. Корневая директория для хранения локальных файлов кеша для удаленной файловой системы.
- limit_size: Обязательно. Максимальный размер (в байтах) локальных файлов кеша.
- bytes_read_before_flush: Управляет количеством байтов перед сбросом в локальную файловую систему при загрузке файла из удаленной файловой системы. Значение по умолчанию — 1MB.
Запрос к таблице Hive с форматом входных данных ORC
Создание таблицы в Hive
Создание таблицы в ClickHouse
Таблица в ClickHouse, получающая данные из таблицы Hive, созданной выше:
Запрос к таблице Hive с форматом входных данных Parquet
Создание таблицы в Hive
Создание таблицы в ClickHouse
Таблица в ClickHouse, получающая данные из таблицы Hive, созданной выше:
Запрос к таблице Hive с форматом входных данных Text
Создание таблицы в Hive
Создание таблицы в ClickHouse
Таблица в ClickHouse, получающая данные из таблицы Hive, созданной выше: