Начало работы с форматами таблиц lakehouse
В этом руководстве представлен практический обзор основных возможностей ClickHouse для работы с форматами таблиц lakehouse.
Запросы к данным на месте
ClickHouse может выступать в роли движка запросов по открытым форматам таблиц, хранящимся в Объектном хранилище. Не дублируя данные, пользователи могут указать ClickHouse существующие таблицы Iceberg, Delta Lake, Hudi или Paimon и сразу же начинать выполнять запросы — как для обеспечения продакшен-нагрузки, так и для интерактивного исследования данных. Это можно делать посредством прямого чтения с использованием табличных функций и движков таблиц или подключившись к дата-каталогу.
- Непосредственное выполнение запросов к открытым форматам таблиц — Используйте табличные функции ClickHouse для чтения таблиц Iceberg, Delta Lake, Hudi и Paimon в Объектном хранилище без какой-либо предварительной настройки.
- Подключение к дата-каталогу — Представляйте каталог в виде базы данных ClickHouse и выполняйте запросы к его таблицам с использованием стандартного SQL. Рекомендуется, когда вам нужно получать доступ к нескольким таблицам в каталоге.
Ускорение аналитики
Для рабочих нагрузок, которым требуются ответы с низкой задержкой и высокая степень параллелизма, загрузка данных из открытых табличных форматов в движок MergeTree ClickHouse обеспечивает существенно более высокую производительность. Благодаря использованию разреженного первичного индекса, пропускающих индексов и столбцового хранения запросы, которые при работе с файлами Parquet выполняются секунды, завершаются за миллисекунды.
- Ускорение аналитики с помощью MergeTree - Загрузите данные из каталога в таблицу MergeTree и получите ускорение выполнения запросов примерно в 40 раз.
Обратная запись данных
Данные также могут передаваться из ClickHouse обратно в открытые табличные форматы. Независимо от того, выгружаете ли вы устаревшие данные в долгосрочное хранилище или публикуете результаты преобразований для дальнейшего использования, ClickHouse может записывать в таблицы Iceberg и Delta в объектном хранилище.
- Запись данных в открытые табличные форматы - Записывайте сырые данные и агрегированные результаты из ClickHouse в таблицы Iceberg с помощью
INSERT INTO SELECT.