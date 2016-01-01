Начало работы с форматами таблиц lakehouse

В этом руководстве представлен практический обзор основных возможностей ClickHouse для работы с форматами таблиц lakehouse.

ClickHouse может выступать в роли движка запросов по открытым форматам таблиц, хранящимся в Объектном хранилище. Не дублируя данные, пользователи могут указать ClickHouse существующие таблицы Iceberg, Delta Lake, Hudi или Paimon и сразу же начинать выполнять запросы — как для обеспечения продакшен-нагрузки, так и для интерактивного исследования данных. Это можно делать посредством прямого чтения с использованием табличных функций и движков таблиц или подключившись к дата-каталогу.

Непосредственное выполнение запросов к открытым форматам таблиц — Используйте табличные функции ClickHouse для чтения таблиц Iceberg, Delta Lake, Hudi и Paimon в Объектном хранилище без какой-либо предварительной настройки.

Подключение к дата-каталогу — Представляйте каталог в виде базы данных ClickHouse и выполняйте запросы к его таблицам с использованием стандартного SQL. Рекомендуется, когда вам нужно получать доступ к нескольким таблицам в каталоге.

Для рабочих нагрузок, которым требуются ответы с низкой задержкой и высокая степень параллелизма, загрузка данных из открытых табличных форматов в движок MergeTree ClickHouse обеспечивает существенно более высокую производительность. Благодаря использованию разреженного первичного индекса, пропускающих индексов и столбцового хранения запросы, которые при работе с файлами Parquet выполняются секунды, завершаются за миллисекунды.

Ускорение аналитики с помощью MergeTree - Загрузите данные из каталога в таблицу MergeTree и получите ускорение выполнения запросов примерно в 40 раз.

Данные также могут передаваться из ClickHouse обратно в открытые табличные форматы. Независимо от того, выгружаете ли вы устаревшие данные в долгосрочное хранилище или публикуете результаты преобразований для дальнейшего использования, ClickHouse может записывать в таблицы Iceberg и Delta в объектном хранилище.