Перейти к основному содержимому
Перейти к основному содержимому

Data Lakehouse

Озёрное хранилище данных (data lakehouse) — это конвергентная архитектура, которая применяет принципы баз данных к инфраструктуре озера данных, сохраняя гибкость и масштабируемость облачных систем хранения.

Lakehouse — это не попытка «разобрать базу данных на части», а построение возможностей, аналогичных возможностям баз данных, поверх принципиально иной основы (облачное объектное хранилище), которая ориентирована на поддержку как традиционной аналитики, так и современных AI/ML‑нагрузок в рамках единой платформы.

Из каких компонентов состоит лейкхаус данных?

Современная архитектура лейкхауса данных представляет собой объединение технологий хранилищ данных и озёр данных, комбинируя лучшие аспекты обоих подходов. Эта архитектура включает несколько отдельных, но взаимосвязанных слоёв, обеспечивающих гибкую и надёжную платформу для хранения, управления и анализа данных.

Понимание этих компонентов имеет ключевое значение для организаций, которые хотят реализовать или оптимизировать свою стратегию лейкхауса данных. Многоуровневый подход позволяет заменять компоненты и независимо развивать каждый слой, обеспечивая архитектурную гибкость и устойчивость к будущим изменениям.

Рассмотрим основные строительные блоки типичной архитектуры лейкхауса данных и то, как они взаимодействуют, формируя единую платформу управления данными.

Компоненты лейкхауса данных
ComponentDescription
Data sourcesИсточники данных лейкхауса включают операционные базы данных, стриминговые платформы, IoT‑устройства, журналы приложений и внешних провайдеров.
Query engineОбрабатывает аналитические запросы к данным, хранящимся в объектном хранилище, используя метаданные и оптимизации, предоставляемые слоем формата таблиц. Поддерживает SQL и, потенциально, другие языки запросов для эффективного анализа больших объёмов данных.
Metadata catalogКаталог данных выступает в роли центрального хранилища метаданных, в котором сохраняются и управляются определения таблиц и схемы, информация о секционировании и политики управления доступом. Обеспечивает поиск данных, отслеживание их происхождения и управление данными в масштабе всего лейкхауса.
Table format layerСлой формата таблиц управляет логической организацией файлов данных в таблицы, предоставляя возможности, аналогичные базе данных, такие как транзакции ACID, контроль и эволюцию схемы, функциональность time travel и оптимизации производительности, например data skipping и кластеризацию.
Object storageЭтот слой обеспечивает масштабируемое, надёжное и экономически эффективное хранилище для всех файлов данных и метаданных. Он отвечает за физическое сохранение данных в открытом формате, позволяя осуществлять прямой доступ из множества инструментов и систем.
Client applicationsРазличные инструменты и приложения, которые подключаются к лейкхаусу для выполнения запросов к данным, визуализации инсайтов или построения дата‑продуктов. Сюда могут входить BI‑инструменты, ноутбуки для Data Science, пользовательские приложения и ETL/ELT‑инструменты.

Каковы преимущества data lakehouse?

Архитектура data lakehouse предлагает несколько существенных преимуществ по сравнению как с традиционными хранилищами данных, так и с data lakes:

По сравнению с традиционными хранилищами данных

#ПреимуществоОписание
1Экономическая эффективностьLakehouse-архитектуры используют недорогое объектное хранилище вместо проприетарных форматов хранения, что существенно снижает затраты на хранение по сравнению с хранилищами данных, которые взимают повышенную плату за интегрированное хранилище.
2Гибкость и взаимозаменяемость компонентовАрхитектура lakehouse позволяет организациям заменять отдельные компоненты. Традиционные системы требуют полной замены решения при изменении требований или появлении новых технологий, в то время как lakehouse-подход поддерживает поэтапную эволюцию за счёт замены отдельных компонентов, таких как движки запросов или табличные форматы. Такая гибкость снижает зависимость от вендора и позволяет адаптироваться к изменениям без разрушительных миграций.
3Поддержка открытых форматовLakehouse-системы хранят данные в открытых файловых форматах, таких как Parquet, что обеспечивает прямой доступ из различных инструментов без привязки к вендору, в отличие от проприетарных форматов хранилищ данных, ограничивающих доступ только своей экосистемой.
4Интеграция с AI/MLLakehouse-подход обеспечивает прямой доступ к данным для фреймворков машинного обучения и библиотек на Python/R, тогда как традиционные хранилища данных обычно требуют предварительной выгрузки данных перед их использованием для продвинутой аналитики.
5Независимое масштабированиеВ lakehouse-архитектуре хранилище и вычислительные ресурсы разделены, что позволяет масштабировать их независимо друг от друга в соответствии с реальными потребностями, в отличие от многих хранилищ данных, где масштабирование выполняется совместно.

По сравнению с data lakes

#ПреимуществоОписание
1Производительность запросовLakehouse-системы реализуют индексацию, сбор статистики и оптимизации размещения данных, позволяющие выполнять SQL-запросы с производительностью, сопоставимой с хранилищами данных, устраняя низкую производительность «сырых» data lakes.
2Согласованность данныхБлагодаря поддержке ACID-транзакций lakehouse-архитектуры обеспечивают согласованность данных при параллельных операциях, решая ключевое ограничение традиционных data lakes, где конфликты файлов могут приводить к порче данных.
3Управление схемойLakehouse-системы обеспечивают валидацию схемы и отслеживание её эволюции, предотвращая превращение хранилища в «data swamp», характерное для data lakes, где данные становятся непригодными из-за несогласованных схем.
4Возможности управления и аудитаLakehouse-подход предоставляет детализированное управление доступом и аудит на уровне строк и столбцов, устраняя ограничения базовых data lakes по части средств безопасности.
5Поддержка BI‑инструментовLakehouse-архитектуры предлагают SQL-интерфейсы и оптимизации, делающие их совместимыми со стандартными BI-инструментами, в отличие от «сырых» data lakes, которые требуют дополнительных уровней обработки перед визуализацией.

Какую роль играет ClickHouse в архитектуре data lakehouse?

ClickHouse — это мощный движок аналитических запросов в современной экосистеме data lakehouse. Он предлагает организациям высокопроизводительный вариант для анализа данных в масштабе. ClickHouse является привлекательным выбором благодаря своей исключительной скорости и эффективности выполнения запросов.

В архитектуре lakehouse ClickHouse выступает в роли специализированного слоя обработки, который может гибко взаимодействовать с лежащими в основе данными. Он может напрямую выполнять запросы к файлам Parquet, хранящимся в облачных объектных хранилищах, таких как S3, Azure Blob Storage или Google Cloud Storage, используя свои оптимизированные колоночные возможности обработки для получения быстрых результатов даже на огромных наборах данных. Такая возможность прямых запросов позволяет организациям анализировать данные озера без сложного переноса или трансформации данных.

ClickHouse интегрируется с открытыми табличными форматами, такими как Apache Iceberg, Delta Lake или Apache Hudi, для более сложных задач управления данными. Эта интеграция позволяет ClickHouse использовать расширенные возможности этих форматов, при этом сохраняя ту исключительную производительность запросов, которой он известен. Организации могут интегрировать эти табличные форматы напрямую или подключаться через каталоги метаданных, такие как AWS Glue, Unity или другие сервисы каталогов.

Интегрируя ClickHouse в качестве движка запросов в свою архитектуру lakehouse, организации могут выполнять молниеносные аналитические запросы к своему data lake, сохраняя при этом гибкость и открытость, которые определяют подход lakehouse. Такое сочетание обеспечивает характеристики производительности специализированной аналитической базы данных без отказа от ключевых преимуществ модели lakehouse, включая взаимозаменяемость компонентов, открытые форматы и унифицированное управление данными.

Гибридная архитектура: лучшее из обоих миров

Хотя ClickHouse превосходно справляется с выполнением запросов к компонентам lakehouse, его высокооптимизированный движок хранения дает дополнительное преимущество. Для сценариев, требующих сверхнизкой задержки выполнения запросов — таких как панели мониторинга в реальном времени, операционная аналитика или интерактивный пользовательский опыт, — организации могут избирательно хранить критически важные с точки зрения производительности данные непосредственно в нативном формате ClickHouse. Такой гибридный подход обеспечивает лучшее из обоих миров: непревзойденную скорость выполнения запросов в специализированном хранилище ClickHouse для чувствительной ко времени аналитики и гибкость обращения к более широкому lakehouse при необходимости.

Эта двойная функциональность позволяет организациям реализовывать многоуровневые стратегии управления данными, в рамках которых горячие, часто запрашиваемые данные находятся в оптимизированном хранилище ClickHouse для получения ответов на запросы за доли секунды, при этом сохраняя бесшовный доступ к полной истории данных в lakehouse. Команды могут принимать архитектурные решения, исходя из требований к производительности, а не технических ограничений, используя ClickHouse как молниеносно быструю аналитическую базу данных для критически важных нагрузок и как гибкий движок выполнения запросов для более широкой экосистемы данных.