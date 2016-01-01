Миграция с Snowflake на ClickHouse

Этот документ представляет собой введение в миграцию данных из Snowflake в ClickHouse.

Snowflake - это облачное хранилище данных, в первую очередь сфокусированное на миграции устаревших локальных рабочих нагрузок дата-складов в облако. Оно хорошо оптимизировано для выполнения длительных отчетов в масштабе. Поскольку наборы данных переходят в облако, владельцы данных начинают думать о том, как еще можно извлечь ценность из этих данных, включая использование этих наборов данных для поддержки приложений в реальном времени для внутренних и внешних случаев. Когда это происходит, они часто осознают, что им нужна база данных, оптимизированная для поддержки аналитики в реальном времени, такой как ClickHouse.

В этом разделе мы сравним ключевые особенности ClickHouse и Snowflake.

Snowflake - это облачная платформа для хранения данных, которая предоставляет масштабируемое и эффективное решение для хранения, обработки и анализа больших объемов данных. Как и ClickHouse, Snowflake не основан на существующих технологиях, а полагается на свой собственный движок SQL-запросов и адаптированную архитектуру.

Архитектура Snowflake описывается как гибрид между архитектурой общего хранилища (shared-disk) и архитектурой без общего состояния (shared-nothing). Архитектура общего хранилища - это та, где данные доступны из всех вычислительных узлов с использованием объектных хранилищ, таких как S3. Архитектура без общего состояния - это та, где каждый вычислительный узел хранит часть всего набора данных локально для обработки запросов. Это, в теории, обеспечивает лучшее из обоих моделей: простоту архитектуры общего диска и масштабируемость архитектуры без общего состояния.

Этот дизайн в основном полагается на объектное хранилище как на основной носитель данных, который масштабируется почти бесконечно при параллельном доступе, обеспечивая при этом высокую отказоустойчивость и гарантии масштабируемой пропускной способности.

Изображение ниже из docs.snowflake.com показывает эту архитектуру:

Напротив, как продукт с открытым исходным кодом и облачным размещением, ClickHouse может быть развернут как в архитектуре общего диска, так и без общего состояния. Последняя типична для самоуправляемых развертываний. Хотя это позволяет легко масштабировать CPU и память, конфигурации без общего состояния вводят классические проблемы управления данными и накладные расходы на репликацию данных, особенно во время изменений в составе.

По этой причине ClickHouse Cloud использует архитектуру общего хранилища, которая концептуально похожа на Snowflake. Данные хранятся единожды в объектном хранилище (один экземпляр), таком как S3 или GCS, обеспечивая практически бесконечное хранилище с сильными гарантиями избыточности. Каждый узел имеет доступ к этому единственному экземпляру данных, а также к своим собственным локальным SSD для кэширования. Узлы могут, в свою очередь, масштабироваться для обеспечения дополнительных ресурсов CPU и памяти по мере необходимости. Как и Snowflake, свойства масштабируемости S3 решают классические ограничения архитектур общего диска (ввод-вывод диска и сетевые узкие места), обеспечивая, что пропускная способность I/O, доступная для текущих узлов в кластере, не будет затронута по мере добавления дополнительных узлов.

Помимо базовых форматов хранения и движков запросов, эти архитектуры различаются по нескольким тонким аспектам:

Вычислительные ресурсы в Snowflake предоставляются через концепцию складов. Эти склады состоят из определенного числа узлов, каждый из которых имеет фиксированный размер. Хотя Snowflake не публикует конкретную архитектуру своих складов, в целом считается, что каждый узел состоит из 8 vCPUs, 16GiB и 200GB локального хранилища (для кэширования). Количество узлов зависит от размера футболки, например, x-small имеет один узел, small 2, medium 4, large 8 и т.д. Эти склады независимы от данных и могут использоваться для выполнения запросов к любой базе данных, находящейся в объектном хранилище. Когда они не используются и не подлежат нагрузке запросов, склады приостанавливаются - возобновляя работу, когда поступает запрос. Хотя затраты на хранение всегда отражаются в счетах, склады взимают плату только когда активны.

ClickHouse Cloud использует аналогичный принцип узлов с локальным кэшем. Вместо размеров футболок пользователи разворачивают сервис с общим количеством вычислительных ресурсов и доступной оперативной памяти. Это, в свою очередь, прозрачным образом автоматически масштабируется (в пределах определенных пределов) на основе нагрузки запросов - либо вертикально, увеличивая (или уменьшая) ресурсы для каждого узла, либо горизонтально, увеличивая/уменьшая общее количество узлов. Узлы ClickHouse Cloud в настоящее время имеют соотношение 1 CPU к памяти, в отличие от Snowflake 1. Хотя возможно более свободное связывание, сервисы в настоящее время связаны с данными, в отличие от складов Snowflake. Узлы также будут приостанавливаться, если простаивают, и возобновляться, если поступят запросы. Пользователи также могут вручную изменять размер сервисов при необходимости.

Кэш запросов ClickHouse Cloud в настоящее время специфичен для узла, в отличие от кэша Snowflake, который предоставляется на уровне сервиса независимо от склада. На основе бенчмарков, кэш узла ClickHouse Cloud превосходит кэш Snowflake.

Snowflake и ClickHouse Cloud используют разные подходы к масштабированию для увеличения параллелизма запросов. Snowflake решает эту проблему через функцию, известную как мульти-кластерные склады. Эта функция позволяет пользователям добавлять кластеры в склад. Хотя это не улучшает задержку запросов, она обеспечивает дополнительную параллелизацию и позволяет повышенную конкурентоспособность запросов. ClickHouse достигает этого, добавляя больше памяти и CPU в сервис через вертикальное или горизонтальное масштабирование. Мы не рассматриваем возможности этих сервисов для масштабирования до более высокой конкурентоспособности в этом блоге, сосредотачиваясь на задержке, но признаем, что эта работа должна быть выполнена для полного сравнения. Тем не менее, мы ожидаем, что ClickHouse будет хорошо работать в любом тесте на конкурентоспособность, при этом Snowflake явно ограничивает количество одновременно выполняемых запросов для склада до 8 по умолчанию. В то время как ClickHouse Cloud позволяет выполнять до 1000 запросов на каждом узле.

Способность Snowflake переключать размер вычислительных ресурсов на набор данных, в сочетании с быстрыми временами возобновления для складов, делает его отличным решением для ad hoc запросов. Для рабочих случаев дата-складов и дата-озер это предоставляет преимущество перед другими системами.

Согласно публичным бенчмаркам данным, ClickHouse превосходит Snowflake для приложений аналитики в реальном времени в следующих областях: