Перейти к основному содержимому
Перейти к основному содержимому

Лейкхаус данных (Data Lakehouse)

ClickHouse интегрируется с открытыми lakehouse-форматами таблиц, включая Apache Iceberg, Delta Lake, Apache Hudi и Apache Paimon. Это позволяет пользователям подключать ClickHouse к данным, уже хранящимся в этих форматах в объектных хранилищах, объединяя аналитические возможности ClickHouse с их существующей инфраструктурой озера данных.

Зачем использовать ClickHouse с открытыми табличными форматами?

Выполнение запросов к существующим данным на месте

ClickHouse может выполнять запросы к открытым форматам таблиц напрямую в Объектном хранилище без дублирования данных. Организации, стандартизировавшиеся на использовании Iceberg, Delta Lake, Hudi или Paimon, могут подключить ClickHouse к существующим таблицам и сразу использовать его диалект SQL, аналитические функции и эффективный собственный Parquet‑ридер. Одновременно такие инструменты, как clickhouse-local и chDB, позволяют выполнять исследовательский разовый анализ по более чем 70 форматам файлов в удалённом хранилище, давая пользователям возможность интерактивно исследовать lakehouse‑наборы данных без какой‑либо инфраструктурной подготовки.

Пользователи могут добиться этого либо прямым чтением с использованием табличных функций и Движков таблиц, либо подключением к каталогу данных.

Real-time аналитические рабочие нагрузки с ClickHouse

Для рабочих нагрузок, требующих высокой параллельности и низкой задержки отклика, пользователи могут загружать данные из открытых табличных форматов в движок ClickHouse MergeTree. Это обеспечивает слой Real-time аналитики поверх данных, которые изначально хранятся в озере данных, поддерживая дашборды, оперативную отчетность и другие чувствительные к задержкам рабочие нагрузки, которые выигрывают от столбцового хранения и возможностей индексирования MergeTree.

См. руководство по началу работы по ускорению аналитики с помощью MergeTree.

Возможности

Непосредственное чтение данных

ClickHouse предоставляет табличные функции и движки для прямого чтения открытых табличных форматов из объектного хранилища. Такие функции, как iceberg(), deltaLake(), hudi() и paimon(), позволяют пользователям выполнять запросы к таблицам в форматах озёр данных (data lake) в рамках SQL-выражения без какой-либо предварительной конфигурации. Существуют версии этих функций для большинства распространённых объектных хранилищ, таких как S3, Azure Blob Storage и GCS. Для этих функций также существуют эквивалентные Движки таблиц, которые можно использовать для создания таблиц в ClickHouse, ссылающихся на размещённые в объектном хранилище таблицы в форматах озёр данных, — что делает выполнение запросов более удобным.

См. наше руководство по началу работы: по непосредственному выполнению запросов или по подключению к каталогу данных.

Публикация каталогов в виде баз данных

Используя движок базы данных DataLakeCatalog, пользователи могут подключить ClickHouse к внешнему каталогу и представить его в виде базы данных. Таблицы, зарегистрированные в каталоге, отображаются как таблицы в ClickHouse, что позволяет прозрачно использовать весь спектр синтаксиса SQL ClickHouse и аналитических функций. Это означает, что пользователи могут выполнять запросы, объединения и агрегирования по таблицам, управляемым каталогом, как если бы это были собственные таблицы ClickHouse, пользуясь преимуществами оптимизации запросов, параллельного выполнения и возможностей чтения данных в ClickHouse.

Поддерживаемые каталоги:

CatalogGuide
AWS GlueРуководство по каталогу Glue
Databricks Unity CatalogРуководство по каталогу Unity
Iceberg REST CatalogРуководство по REST-каталогу
LakekeeperРуководство по каталогу Lakekeeper
Project NessieРуководство по каталогу Nessie
Microsoft OneLakeРуководство по каталогу OneLake

См. руководство по началу работы, посвящённое подключению к каталогам.

Запись обратно в открытые табличные форматы

ClickHouse поддерживает запись данных в открытые табличные форматы, что актуально в следующих сценариях:

  • Реальное время → долгосрочное хранение — данные проходят через ClickHouse как через слой Real-time аналитики, и пользователям необходимо выгружать результаты в Iceberg или другие форматы для надежного и экономичного долгосрочного хранения.
  • Reverse ETL — пользователи выполняют преобразования в ClickHouse с помощью materialized view или запланированных запросов и хотят сохранять результаты в открытые табличные форматы для использования другими инструментами в экосистеме данных.

См. руководство по началу работы, посвящённое записи в озера данных.

Следующие шаги

Готовы попробовать? В руководстве по началу работы показано, как выполнять запросы непосредственно к открытым табличным форматам, подключаться к каталогу, загружать данные в MergeTree для быстрой аналитики и записывать результаты обратно — всё в рамках единого сквозного процесса.