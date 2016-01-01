Дата Лэйкхаус

Data lakehouse — это конвергентная архитектура, которая применяет принципы баз данных к инфраструктуре дата-озер, сохраняя при этом гибкость и масштабируемость облачных систем хранения.

Lakehouse не просто разлагает базу данных, а создает возможности, схожие с базами данных, на фундаментально другой основе (объектное облачное хранилище), которая сосредоточена на поддержке традиционной аналитики и современных загрузок AI/ML на единой платформе.

Современная архитектура дата-озера представляет собой слияние технологий хранилищ данных и дата-озер, сочетая лучшие аспекты обоих подходов. Эта архитектура состоит из нескольких различных, но взаимосвязанных слоев, обеспечивающих гибкую, надежную платформу для хранения, управления и анализа данных.

Понимание этих компонентов имеет решающее значение для организаций, стремящихся реализовать или оптимизировать свою стратегию дата-озера. Слойная архитектура позволяет производить замену компонентов и независимую эволюцию каждого слоя, обеспечивая архитектурную гибкость и защищенность от будущих изменений.

Давайте исследуем основные строительные блоки типичной архитектуры дата-озера и как они взаимодействуют, создавая целостную платформу управления данными.

Компонент Описание Источники данных Источники данных для lakehouse включают операционные базы данных, платформы потоковых данных, устройства IoT, логи приложений и внешние провайдеры. Движок запросов Обрабатывает аналитические запросы к данным, хранящимся в объектном хранилище, используя метаданные и оптимизации, предоставляемые слоем формата таблицы. Поддерживает SQL и потенциально другие языки запросов для эффективного анализа больших объемов данных. Каталог метаданных Каталог данных действует как центральный репозиторий для метаданных, храня и управляя определениями таблиц и схемами, информацией о партиционировании и политиками контроля доступа. Позволяет осуществлять открытие данных, отслеживание происхождения и управление в рамках lakehouse. Слой формата таблицы Слой формата таблицы управляет логической организацией файлов данных в таблицы, обеспечивая функции, схожие с базами данных, такие как транзакции ACID, соблюдение и эволюция схем, возможности временного путешествия, а также оптимизации производительности, такие как пропуск данных и кластеризация. Объектное хранилище Этот слой предоставляет масштабируемое, долговечное и экономически эффективное хранилище для всех файлов данных и метаданных. Он обрабатывает физическую постоянность данных в открытом формате, обеспечивая прямой доступ из различных инструментов и систем. Клиентские приложения Различные инструменты и приложения, которые подключаются к lakehouse для запросов данных, визуализации инсайтов или создания продуктов данных. К ним могут относиться инструменты BI, блокноты для науки о данных, пользовательские приложения и инструменты ETL/ELT.

Архитектура дата-озера предлагает несколько значительных преимуществ по сравнению как с традиционными хранилищами данных, так и с дата-озерами:

# Преимущество Описание 1 Экономическая эффективность Lakehouse использует недорогое объектное хранилище вместо проприетарных форматов хранения, что значительно снижает затраты на хранение по сравнению с хранилищами данных, которые взимают высокие цены за своё интегрированное хранилище. 2 Гибкость компонентов и взаимозаменяемость Архитектура lakehouse позволяет организациям заменять разные компоненты. Традиционные системы требуют полной замены при изменении требований или внедрении новых технологий, тогда как lakehouse дает возможность поэтапной эволюции путем замены отдельных компонентов, таких как движки запросов или форматы таблиц. Эта гибкость снижает зависимость от поставщика и позволяет организациям адаптироваться к изменениям без разрушительных миграций. 3 Поддержка открытых форматов Lakehouse хранит данные в открытых файловых форматах, таких как Parquet, позволяя прямой доступ с различных инструментов без зависимости от поставщика, в отличие от проприетарных форматов хранилищ данных, которые ограничивают доступ к своей экосистеме. 4 Интеграция AI/ML Lakehouse обеспечивает прямой доступ к данным для фреймворков машинного обучения и библиотек Python/R, в то время как для хранилищ данных обычно требуется извлечение данных перед использованием для продвинутой аналитики. 5 Независимое масштабирование Lakehouse отделяет хранение от вычислений, позволяя каждому из них масштабироваться независимо на основе фактических потребностей, в отличие от многих хранилищ данных, где они масштабируются вместе.

# Преимущество Описание 1 Производительность запросов Lakehouse реализует индексацию, статистику и оптимизации структуры данных, которые позволяют SQL-запросам выполняться на скоростях, сопоставимых с хранилищами данных, преодолевая плохую производительность сырых дата-озер. 2 Согласованность данных За счет поддержки транзакций ACID lakehouse обеспечивает согласованность во время параллельных операций, решая серьезное ограничение традиционных дата-озер, где конфликты файлов могут повредить данные. 3 Управление схемами Lakehouse обеспечивает соблюдение схемы и отслеживание ее эволюции, предотвращая проблему "болота данных", распространенную в дата-озерах, где данные становятся непригодными из-за несоответствий схем. 4 Возможности управления Lakehouse предоставляет возможность тонконастройки контроля доступа и аудита на уровне строк/колонок, решая проблемы ограниченных средств безопасности в базовых дата-озерах. 5 Поддержка BI-инструментов Lakehouse предлагает SQL-интерфейсы и оптимизации, которые делают его совместимым со стандартными BI-инструментами, в отличие от сырых дата-озер, которые требуют дополнительных слоев обработки перед визуализацией.

ClickHouse является мощным аналитическим движком запросов в современной экосистеме дата-озеров. Он предлагает организациям высокопроизводительный вариант для анализа данных в масштабе. ClickHouse является привлекательным выбором благодаря своей исключительной скорости выполнения запросов и эффективности.

В рамках архитектуры lakehouse ClickHouse функционирует как специализированный слой обработки, который может гибко взаимодействовать с подлежащими данными. Он может напрямую запрашивать файлы Parquet, хранящиеся в облачных системах объектного хранилища, таких как S3, Azure Blob Storage или Google Cloud Storage, используя свои оптимизированные возможности колонного анализа для получения быстрых результатов даже на огромных наборах данных. Эта возможность прямого запроса позволяет организациям анализировать свои данные в lakehouse без сложных процессов перемещения или преобразования данных.

ClickHouse интегрируется с открытыми форматами таблиц, такими как Apache Iceberg, Delta Lake или Apache Hudi для более сложных потребностей управления данными. Эта интеграция позволяет ClickHouse использовать передовые функции этих форматов, при этом обеспечивая исключительную производительность выполнения запросов, за которую он известен. Организации могут интегрировать эти форматы таблиц напрямую или подключаться через каталоги метаданных, такие как AWS Glue, Unity или другие сервисы каталогов.

Включив ClickHouse в качестве движка запросов в свою архитектуру lakehouse, организации могут выполнять сверхбыстрые аналитические запросы к своим данным в озере, сохраняя при этом гибкость и открытость, которые определяют подход lakehouse. Эта комбинация обеспечивает характеристики производительности специализированной аналитической базы данных без ущерба для основных преимуществ модели lakehouse, включая взаимозаменяемость компонентов, открытые форматы и единую систему управления данными.

Хотя ClickHouse превосходно справляется с запросами к компонентам lakehouse, его высоко оптимизированный движок хранения предлагает дополнительное преимущество. Для случаев использования, требующих ультранизкой задержки запросов — таких как панели мониторинга в реальном времени, операционная аналитика или интерактивные пользовательские интерфейсы — организации могут выборочно хранить данные, критичные к производительности, непосредственно в нативном формате ClickHouse. Этот гибридный подход обеспечивает лучшее из обоих миров: непревзойденную скорость выполнения запросов специализированного хранилища ClickHouse для аналитики, требующей быстрой реакции, и гибкость в запросах к более широкому lakehouse при необходимости.

Эта двойная способность позволяет организациям реализовывать уровневые стратегии данных, где горячие, часто запрашиваемые данные хранятся в оптимизированном хранении ClickHouse для ответов на запросы менее чем за секунду, при этом поддерживая бесшовный доступ ко всей истории данных в lakehouse. Команды могут принимать архитектурные решения на основании требований к производительности, а не технических ограничений, используя ClickHouse в качестве сверхбыстрой аналитической базы данных для критически важных загрузок и как гибкий движок запросов для всей экосистемы данных.