Лейкхаус данных (Data Lakehouse)
ClickHouse интегрируется с открытыми lakehouse-форматами таблиц, включая Apache Iceberg, Delta Lake, Apache Hudi и Apache Paimon. Это позволяет пользователям подключать ClickHouse к данным, уже хранящимся в этих форматах в объектных хранилищах, объединяя аналитические возможности ClickHouse с их существующей инфраструктурой озера данных.
Зачем использовать ClickHouse с открытыми табличными форматами?
Выполнение запросов к существующим данным на месте
ClickHouse может выполнять запросы к открытым форматам таблиц напрямую в Объектном хранилище без дублирования данных. Организации, стандартизировавшиеся на использовании Iceberg, Delta Lake, Hudi или Paimon, могут подключить ClickHouse к существующим таблицам и сразу использовать его диалект SQL, аналитические функции и эффективный собственный Parquet‑ридер. Одновременно такие инструменты, как clickhouse-local и chDB, позволяют выполнять исследовательский разовый анализ по более чем 70 форматам файлов в удалённом хранилище, давая пользователям возможность интерактивно исследовать lakehouse‑наборы данных без какой‑либо инфраструктурной подготовки.
Пользователи могут добиться этого либо прямым чтением с использованием табличных функций и Движков таблиц, либо подключением к каталогу данных.
Real-time аналитические рабочие нагрузки с ClickHouse
Для рабочих нагрузок, требующих высокой параллельности и низкой задержки отклика, пользователи могут загружать данные из открытых табличных форматов в движок ClickHouse MergeTree. Это обеспечивает слой Real-time аналитики поверх данных, которые изначально хранятся в озере данных, поддерживая дашборды, оперативную отчетность и другие чувствительные к задержкам рабочие нагрузки, которые выигрывают от столбцового хранения и возможностей индексирования MergeTree.
См. руководство по началу работы по ускорению аналитики с помощью MergeTree.
Возможности
Непосредственное чтение данных
ClickHouse предоставляет табличные функции и движки для прямого чтения открытых табличных форматов из объектного хранилища. Такие функции, как iceberg(), deltaLake(), hudi() и paimon(), позволяют пользователям выполнять запросы к таблицам в форматах озёр данных (data lake) в рамках SQL-выражения без какой-либо предварительной конфигурации. Существуют версии этих функций для большинства распространённых объектных хранилищ, таких как S3, Azure Blob Storage и GCS. Для этих функций также существуют эквивалентные Движки таблиц, которые можно использовать для создания таблиц в ClickHouse, ссылающихся на размещённые в объектном хранилище таблицы в форматах озёр данных, — что делает выполнение запросов более удобным.
См. наше руководство по началу работы: по непосредственному выполнению запросов или по подключению к каталогу данных.
Публикация каталогов в виде баз данных
Используя движок базы данных DataLakeCatalog, пользователи могут подключить ClickHouse к внешнему каталогу и представить его в виде базы данных. Таблицы, зарегистрированные в каталоге, отображаются как таблицы в ClickHouse, что позволяет прозрачно использовать весь спектр синтаксиса SQL ClickHouse и аналитических функций. Это означает, что пользователи могут выполнять запросы, объединения и агрегирования по таблицам, управляемым каталогом, как если бы это были собственные таблицы ClickHouse, пользуясь преимуществами оптимизации запросов, параллельного выполнения и возможностей чтения данных в ClickHouse.
Поддерживаемые каталоги:
| Catalog | Guide |
|---|---|
| AWS Glue | Руководство по каталогу Glue |
| Databricks Unity Catalog | Руководство по каталогу Unity |
| Iceberg REST Catalog | Руководство по REST-каталогу |
| Lakekeeper | Руководство по каталогу Lakekeeper |
| Project Nessie | Руководство по каталогу Nessie |
| Microsoft OneLake | Руководство по каталогу OneLake |
См. руководство по началу работы, посвящённое подключению к каталогам.
Запись обратно в открытые табличные форматы
ClickHouse поддерживает запись данных в открытые табличные форматы, что актуально в следующих сценариях:
- Реальное время → долгосрочное хранение — данные проходят через ClickHouse как через слой Real-time аналитики, и пользователям необходимо выгружать результаты в Iceberg или другие форматы для надежного и экономичного долгосрочного хранения.
- Reverse ETL — пользователи выполняют преобразования в ClickHouse с помощью materialized view или запланированных запросов и хотят сохранять результаты в открытые табличные форматы для использования другими инструментами в экосистеме данных.
См. руководство по началу работы, посвящённое записи в озера данных.
Следующие шаги
Готовы попробовать? В руководстве по началу работы показано, как выполнять запросы непосредственно к открытым табличным форматам, подключаться к каталогу, загружать данные в MergeTree для быстрой аналитики и записывать результаты обратно — всё в рамках единого сквозного процесса.