Озера данных - ClickHouse Documentation

ClickHouse интегрируется с открытыми табличными форматами, включая Apache Iceberg, Delta Lake, Apache Hudi и Apache Paimon. Это позволяет пользователям подключать ClickHouse к данным, уже хранящимся в этих форматах в объектных хранилищах, сочетая аналитические возможности ClickHouse с существующей инфраструктурой озер данных.

Зачем использовать ClickHouse с открытыми табличными форматами?

Выполняйте запросы к существующим данным без их перемещения

ClickHouse может выполнять запросы к открытым табличным форматам напрямую в объектном хранилище без дублирования данных. Организации, использующие Iceberg, Delta Lake, Hudi или Paimon в качестве стандарта, могут указать ClickHouse на существующие таблицы и сразу использовать его диалект SQL, аналитические функции и эффективный нативный ридер Parquet. В то же время такие инструменты, как clickhouse-local и chDB, позволяют проводить исследовательский и ad hoc-анализ более чем 70 форматов файлов в удаленном хранилище, давая пользователям возможность интерактивно изучать датасеты в озерах данных без настройки инфраструктуры. Пользователи могут делать это либо через прямое чтение, используя табличные функции и движки таблиц, либо подключившись к каталогу данных.

Рабочие нагрузки аналитики в реальном времени с ClickHouse

Для рабочих нагрузок, которым требуются высокий параллелизм и низкая задержка отклика, пользователи могут загружать данные из открытых табличных форматов в движок MergeTree ClickHouse. Это создает слой Real-time аналитики поверх данных из озера данных, поддерживая панели мониторинга, операционную отчётность и другие чувствительные к задержкам рабочие нагрузки, которым полезны столбцовое хранение и возможности индексации MergeTree. См. руководство «Начало работы» по ускорению аналитики с MergeTree.

Привилегии

Чтение данных напрямую

ClickHouse предоставляет табличные функции и движки для прямого чтения открытых табличных форматов из объектного хранилища. Такие функции, как iceberg(), deltaLake(), hudi() и paimon(), позволяют выполнять запросы к таблицам в открытых табличных форматах прямо из SQL-оператора, без какой-либо предварительной настройки. Для большинства распространённых объектных хранилищ, таких как S3, Azure Blob Storage и GCS, существуют соответствующие версии этих функций. У этих функций также есть эквивалентные движки таблиц, которые можно использовать для создания таблиц в ClickHouse, ссылающихся на базовое объектное хранилище с открытыми табличными форматами, — это делает выполнение запросов более удобным. См. наше руководство «Начало работы»: прямое выполнение запросов или подключение к каталогу данных.

Подключение каталогов как баз данных

С помощью движка базы данных DataLakeCatalog пользователи могут подключать ClickHouse к внешнему каталогу и представлять его как базу данных. Таблицы, зарегистрированные в каталоге, отображаются в ClickHouse как обычные таблицы, что позволяет прозрачно использовать весь синтаксис ClickHouse SQL и аналитические функции. Это означает, что пользователи могут выполнять запросы, JOIN и агрегации по таблицам, управляемым каталогом, так, как если бы это были собственные таблицы ClickHouse, пользуясь преимуществами оптимизации запросов, параллельного выполнения и возможностей чтения ClickHouse. Поддерживаются следующие каталоги:

Каталог	Руководство
AWS Glue	Руководство по Glue Catalog
BigLake Metastore	Руководство по BigLake Metastore
Databricks Unity Catalog	Руководство по Unity Catalog
Iceberg REST Catalog	Руководство по REST Catalog
Lakekeeper	Руководство по Lakekeeper Catalog
Project Nessie	Руководство по Nessie Catalog
Microsoft OneLake	Руководство по OneLake Catalog

См. руководство «Начало работы» по подключению к каталогам.

Обратная запись в открытые табличные форматы

ClickHouse поддерживает обратную запись данных в открытые табличные форматы, что особенно полезно в таких сценариях, как:

Из real-time в долгосрочное хранилище — данные проходят через ClickHouse как слой Real-time аналитики, после чего пользователям требуется выгружать результаты в Iceberg или другие форматы для надежного и экономичного долгосрочного хранения.
Reverse ETL — пользователи выполняют преобразования в ClickHouse с помощью materialized view или запросов по расписанию и хотят сохранять результаты в открытых табличных форматах, чтобы их могли использовать другие инструменты в экосистеме данных.

См. руководство «Начало работы» по записи в озера данных.

Следующие шаги

Готовы попробовать? В руководстве «Начало работы» пошагово показано, как напрямую выполнять запросы к открытым табличным форматам, подключаться к каталогу, загружать данные в MergeTree для быстрой аналитики и записывать результаты обратно — всё в рамках единого сквозного сценария.

​Зачем использовать ClickHouse с открытыми табличными форматами?

​Выполняйте запросы к существующим данным без их перемещения

​Рабочие нагрузки аналитики в реальном времени с ClickHouse

​Привилегии

​Чтение данных напрямую

​Подключение каталогов как баз данных

​Обратная запись в открытые табличные форматы

​Рекомендации

​Следующие шаги