Интеграция S3 с ClickHouse

Вы можете вставлять данные из S3 в ClickHouse, а также использовать S3 в качестве места экспорта, таким образом позволяя взаимодействовать с архитектурами "ДатаЛэйк". Более того, S3 может предоставить уровни "холодного" хранения и помочь в разделении хранения и вычислений. В разделах ниже мы используем набор данных такси Нью-Йорка, чтобы продемонстрировать процесс перемещения данных между S3 и ClickHouse, а также определить ключевые параметры конфигурации и дать советы по оптимизации производительности.

Функции таблиц S3

Функция таблицы s3 позволяет вам читать и записывать файлы из и в хранилище, совместимое с S3. Основная форма синтаксиса выглядит так:

где:

path — URL корзины с путём к файлу. Поддерживаются следующие подстановочные знаки в режиме только для чтения: *, ?, {abc,def} и {N..M} где N, M — это числа, 'abc', 'def' — это строки. Для получения дополнительной информации смотрите документацию по использованию подстановочных знаков в пути.
format — формат файла.
structure — Структура таблицы. Формат 'column1_name column1_type, column2_name column2_type, ...'.
compression — Параметр является опциональным. Поддерживаемые значения: none, gzip/gz, brotli/br, xz/LZMA, zstd/zst. По умолчанию будет автоматически определено сжатие по расширению файла.

Использование подстановочных знаков в выражении пути позволяет ссылаться на несколько файлов и открывает возможность параллелизма.

Подготовка

Перед созданием таблицы в ClickHouse вы можете сначала внимательно рассмотреть данные в корзине S3. Вы можете сделать это прямо из ClickHouse, используя оператор DESCRIBE:

Результат оператора DESCRIBE TABLE должен показать вам, как ClickHouse автоматически выведет эти данные, как это видно в корзине S3. Обратите внимание, что он также автоматически распознаёт и разжимает формат сжатия gzip:

Чтобы взаимодействовать с нашими данными на основе S3, мы подготавливаем стандартную таблицу MergeTree в качестве нашего назначения. Оператор ниже создает таблицу с именем trips в базе данных по умолчанию. Обратите внимание, что мы решили изменить некоторые из типов данных, как было выведено выше, особенно чтобы не использовать модификатор типа данных Nullable(), который может вызвать ненужные дополнительные хранимые данные и дополнительные накладные расходы по производительности:

Обратите внимание на использование партиционирования по полю pickup_date. Обычно ключ партиционирования предназначен для управления данными, но позже мы будем использовать этот ключ для параллелизации записей в S3.

Каждая запись в нашем наборе данных такси содержит поездку на такси. Эти анонимизированные данные состоят из 20 млн записей, сжатых в корзине S3 https://datasets-documentation.s3.eu-west-3.amazonaws.com/ под папкой nyc-taxi. Данные находятся в формате TSV с примерно 1 млн строк на файл.

Чтение данных из S3

Мы можем запрашивать данные S3 в качестве источника без необходимости сохранять их в ClickHouse. В следующем запросе мы выбираем 10 строк. Обратите внимание на отсутствие учетных данных, так как корзина является общедоступной:

Обратите внимание, что нам не нужно перечислять столбцы, поскольку формат TabSeparatedWithNames кодирует названия столбцов в первой строке. Другие форматы, такие как CSV или TSV, вернут автоматически сгенерированные столбцы для этого запроса, например, c1, c2, c3 и т.д.

Запросы дополнительно поддерживают виртуальные столбцы, такие как _path и _file, которые предоставляют информацию о пути к корзине и имени файла соответственно. Например:

Подтвердите количество строк в этом выборочном наборе данных. Обратите внимание на использование подстановочных знаков для расширения файлов, чтобы мы могли учитывать все двадцать файлов. Этот запрос займет около 10 секунд, в зависимости от количества ядер на экземпляре ClickHouse:

Хотя это полезно для выборки данных и выполнения запросов, не рекомендуется регулярно читать данные непосредственно из S3. Когда пришло время заняться серьезными делами, импортируйте данные в таблицу MergeTree в ClickHouse.

Использование clickhouse-local

Программа clickhouse-local позволяет вам выполнять быструю обработку локальных файлов без развертывания и настройки сервера ClickHouse. Все запросы, использующие функцию таблицы s3, можно выполнять с помощью этого инструмента. Например:

Вставка данных из S3

Чтобы использовать все возможности ClickHouse, мы далее читаем и вставляем данные в наш экземпляр. Мы комбинируем нашу функцию s3 с простым оператором INSERT, чтобы достичь этого. Обратите внимание, что нам не нужно перечислять наши столбцы, так как целевая таблица предоставляет необходимую структуру. Это требует, чтобы столбцы появлялись в порядке, указанном в операторе DDL таблицы: столбцы сопоставляются в соответствии с их позицией в клаузе SELECT. Вставка всех 10 млн строк может занять несколько минут в зависимости от экземпляра ClickHouse. Ниже мы вставляем 1 млн строк, чтобы обеспечить быструю реакцию. Настройте клаузу LIMIT или выбор столбцов, чтобы импортировать подмножества по мере необходимости:

Удаленная вставка с использованием ClickHouse Local

Если политики безопасности сети препятствуют вашему кластеру ClickHouse осуществлять исходящие соединения, вы можете потенциально вставить данные из S3, используя clickhouse-local. В следующем примере мы читаем из корзины S3 и вставляем в ClickHouse с использованием функции remote:

примечание

Для выполнения этого через безопасное SSL соединение используйте функцию remoteSecure.

Экспорт данных

Вы можете записывать файлы в S3, используя функцию таблицы s3. Это потребует соответствующих разрешений. Мы передаём необходимые учетные данные в запросе, но смотрите страницу Управление учетными данными для получения дополнительных опций.

В простом примере ниже мы используем функцию таблицы в качестве назначения вместо источника. Здесь мы потоково передаем 10 000 строк из таблицы trips в корзину, указывая сжатие lz4 и тип вывода CSV:

Обратите внимание, как формат файла определяется по расширению. Нам также не нужно указывать столбцы в функции s3 — это можно определить из SELECT.

Разделение больших файлов

Вряд ли вы захотите экспортировать ваши данные в виде одного файла. Большинство инструментов, включая ClickHouse, добиваются более высокой производительности при чтении и записи в несколько файлов благодаря возможности параллелизма. Мы могли бы выполнять нашу команду INSERT несколько раз, нацеливаясь на подмножество данных. ClickHouse предлагает способ автоматического разделения файлов с использованием ключа PARTITION.

В следующем примере мы создаем десять файлов, используя модуль функции rand(). Обратите внимание, как результирующий идентификатор партиции ссылается на имя файла. Это приводит к созданию десяти файлов с числовым окончанием, например, trips_0.csv.lz4, trips_1.csv.lz4 и т.д.:

В качестве альтернативы мы можем сослаться на поле в данных. Для этого набора данных payment_type предоставляет естественный ключ партиционирования с кардинальностью 5.

Использование кластеров

Вышеуказанные функции ограничены выполнением на одном узле. Скорость чтения будет масштабироваться линейно с ядрами CPU до тех пор, пока не будет ограничен другие ресурсы (обычно сеть), позволяя пользователям вертикально масштабироваться. Однако этот подход имеет свои ограничения. Хотя пользователи могут облегчить часть давления на ресурсы, вставляя в распределённую таблицу при выполнении запроса INSERT INTO SELECT, это всё равно оставляет один узел для чтения, разбора и обработки данных. Для решения этой проблемы и обеспечения масштабирования чтений по горизонтали у нас есть функция s3Cluster.

Узел, принимающий запрос, известный как инициатор, создает соединение с каждым узлом в кластере. Шаблон glob, определяющий, какие файлы нужно читать, разрешается в набор файлов. Инициатор распределяет файлы по узлам в кластере, которые выступают в роли рабочих. Эти рабочие, в свою очередь, запрашивают файлы для обработки по мере завершения чтения. Этот процесс обеспечивает возможность горизонтального масштабирования чтений.

Функция s3Cluster принимает тот же формат, что и варианты с одним узлом, за исключением того, что требуется целевой кластер для обозначения рабочих узлов:

cluster_name — имя кластера, который используется для построения набора адресов и параметров соединения для удалённых и локальных серверов.
source — URL к файлу или множеству файлов. Поддерживаются следующие подстановочные знаки в режиме только для чтения: *, ?, {'abc','def'} и {N..M} где N, M — числа, abc, def — строки. Для получения дополнительной информации смотрите Подстановочные знаки в пути.
access_key_id и secret_access_key — ключи, которые указывают учетные данные для использования с указанным конечным пунктом. Опционально.
format — формат файла.
structure — структура таблицы. Формат 'column1_name column1_type, column2_name column2_type, ...'.

Как и в любом s3, учетные данные являются опциональными, если корзина небезопасна или вы определяете безопасность через окружение, например, IAM роли. В отличие от функции s3, однако, структура должна быть указана в запросе, начиная с версии 22.3.1, то есть схема не считается автоматически.

Эта функция будет использоваться в большинстве случаев как часть INSERT INTO SELECT. В этом случае вы часто будете вставлять в распределённую таблицу. Мы иллюстрируем простой пример ниже, где trips_all является распределённой таблицей. Хотя эта таблица использует кластер событий, согласованность узлов, используемых для чтения и записи, не является обязательной:

Вставки будут происходить против узла инициатора. Это означает, что в то время как чтения будут происходить на каждом узле, результирующие строки будут направляться к инициатору для распределения. В сценариях с высокой пропускной способностью это может стать узким местом. Для решения этой проблемы установите параметр parallel_distributed_insert_select для функции s3cluster.

Движки таблиц S3

Хотя функции s3 позволяют выполнять ad-hoc запросы к данным, хранящимся в S3, они синтаксически громоздки. Движок таблиц S3 позволяет вам не указывать URL корзины и учетные данные снова и снова. Для этого ClickHouse предоставляет движок таблиц S3.

path — URL корзины с путём к файлу. Поддерживаются следующие подстановочные знаки в режиме только для чтения: *, ?, {abc,def} и {N..M} где N, M — числа, 'abc', 'def' — строки. Для получения дополнительной информации смотрите здесь.
format — формат файла.
aws_access_key_id, aws_secret_access_key - Долгосрочные учетные данные для пользователя AWS. Вы можете использовать их для аутентификации ваших запросов. Параметр является опциональным. Если учетные данные не указаны, используются значения из файла конфигурации. Для получения дополнительной информации смотрите Управление учетными данными.
compression — Тип сжатия. Поддерживаемые значения: none, gzip/gz, brotli/br, xz/LZMA, zstd/zst. Параметр является опциональным. По умолчанию будет автоматически определено сжатие по расширению файла.

Чтение данных

В следующем примере мы создаем таблицу с именем trips_raw, используя первые десять файлов TSV, расположенных в корзине https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/. Каждый из этих файлов содержит по 1 млн строк:

Обратите внимание на использование шаблона {0..9}, чтобы ограничить только первыми десятью файлами. После создания мы можем запрашивать эту таблицу так же, как и любую другую таблицу:

Вставка данных

Движок таблиц S3 поддерживает параллельное чтение. Записи поддерживаются только в том случае, если определение таблицы не содержит шаблонов glob. Таким образом, вышеуказанная таблица блокировала бы записи.

Чтобы продемонстрировать записи, создайте таблицу, указывающую на запись в S3:

Обратите внимание, что строки можно вставлять только в новые файлы. Не существует линейных циклов слияния или операций разделения файлов. Как только файл записывается, последующие вставки завершатся неудачей. У пользователей есть два варианта:

Установить параметр s3_create_new_file_on_insert=1. Это приведет к созданию новых файлов при каждой вставке. Числовое окончание будет добавлено в конец каждого файла, что будет монотонно увеличиваться для каждой операции вставки. Для вышеуказанного примера последующая вставка приведёт к созданию trips_1.bin.
Установить параметр s3_truncate_on_insert=1. Это приведет к усечению файла, т.е. он будет содержать только вновь вставленные строки после завершения.

Оба этих параметра по умолчанию установлены в 0 — таким образом, пользователю необходимо установить один из них. Если оба установлены, s3_truncate_on_insert будет иметь приоритет.

Некоторые примечания об движке таблиц S3:

В отличие от традиционной таблицы из семьи MergeTree, удаление таблицы S3 не приведет к удалению подлежащих данным.
Полные настройки для этого типа таблиц можно найти здесь.
Будьте внимательны к следующим ограничениям при использовании этого движка:
- Запросы ALTER не поддерживаются
- Операции SAMPLE не поддерживаются
- Нет понятия индексов, т.е. первичных или разреженных.

Управление учетными данными

В предыдущих примерах мы передавали учетные данные в функции s3 или определении таблицы S3. Хотя это может быть приемлемо для время от времени, пользователи требуют менее явных механизмов аутентификации в производственной среде. Для решения этой проблемы ClickHouse предлагает несколько вариантов:

Укажите детали соединения в config.xml или аналогичном файле конфигурации в conf.d. Содержимое примера файла показано ниже, предполагая установку с использованием Debian-пакета.

Эти учетные данные будут использоваться для любых запросов, где указанный выше конечный пункт является точным префиксным соответствием для запрашиваемого URL. Также обратите внимание на возможность в этом примере объявить заголовок авторизации как альтернативу для ключей доступа и секретов. Полный список поддерживаемых настроек можно найти здесь.
Пример выше подчеркивает наличие параметра конфигурации use_environment_credentials. Этот параметр конфигурации также можно установить глобально на уровне s3:

Эта настройка включает попытку получить учетные данные S3 из окружения, что позволяет получать доступ через IAM-ролей. В частности, выполняется следующий порядок извлечения:
- Поиск переменных окружения AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY и AWS_SESSION_TOKEN
- Проверка выполняется в $HOME/.aws
- Временные учетные данные, полученные через службу безопасности AWS Token — т.е. через API AssumeRole
- Проверки учетных данных в переменных окружения ECS AWS_CONTAINER_CREDENTIALS_RELATIVE_URI или AWS_CONTAINER_CREDENTIALS_FULL_URI и AWS_ECS_CONTAINER_AUTHORIZATION_TOKEN.
- Получение учетных данных через метаданные экземпляра Amazon EC2, при этом имеется в виду, что AWS_EC2_METADATA_DISABLED не установлен в true.
- Эти же настройки также могут быть установлены для конкретного конечного пункта с использованием того же правила сопоставления префиксов.

Оптимизация производительности

Для оптимизации чтения и вставки с использованием функции S3 смотрите посвященное руководство по производительности.

Настройка хранения S3

Внутренне дерево слияния ClickHouse использует два основных формата хранения: Wide и Compact. Хотя текущее выполнение использует поведение по умолчанию ClickHouse (управляемое через настройки min_bytes_for_wide_part и min_rows_for_wide_part), мы ожидаем, что поведение S3 будет отличаться в будущих релизах, например, большее значение по умолчанию min_bytes_for_wide_part, поощряющее более Compact формат и, следовательно, меньшее количество файлов. Пользователи могут теперь захотеть настроить эти настройки при использовании исключительно хранилища S3.

MergeTree на основе S3

Функции s3 и связанный движок таблиц позволяют нам запрашивать данные в S3, используя привычный синтаксис ClickHouse. Однако, касаясь функций управления данными и производительности, они ограничены. Нет поддержки первичных индексов, поддержки no-cache, и операции вставки файлов необходимо управлять пользователем.

ClickHouse признает, что S3 представляет собой привлекательное решение для хранения, особенно когда производительность запросов на "более холодные" данные менее критична, и пользователи стремятся разделить хранение и вычисления. Чтобы помочь в этом, предусмотрена поддержка использования S3 в качестве хранилища для движка MergeTree. Это позволит пользователям использовать преимущества масштабируемости и экономии затрат S3, а также производительности вставки и запросов движка MergeTree.

Уровни хранения

Носители хранимых данных ClickHouse позволяют абстрагироваться от физических дисков в движке таблиц MergeTree. Любой отдельный носитель может состоять из упорядоченного набора дисков. Хотя в основном это позволяет использовать несколько блоковых устройств для хранения данных, такая абстракция также позволяет использовать другие типы хранения, включая S3. Части данных ClickHouse могут перемещаться между носителями и заполняемостью в соответствии с политиками хранения, тем самым создавая концепцию уровней хранения.

Уровни хранения разблокируют архитектуры горячего и холодного хранения, где самые свежие данные, которые обычно также запрашиваются чаще всего, требуют лишь небольшого объема на высокопроизводительных носителях, например, NVMe SSD. По мере старения данных, обязательства по времени выполнения запросов увеличиваются, как и частота запросов. Этот "толстый" хвост данных может храниться на более медленных, менее производительных носителях, таких как HDD или объектное хранилище, такое как S3.

Создание диска

Чтобы использовать S3 корзину в качестве диска, мы должны сначала объявить ее в файле конфигурации ClickHouse. Либо расширить config.xml, либо предпочтительно предоставить новый файл в директории conf.d. Пример объявления диска S3 показан ниже:

Полный список настроек, относящихся к этому объявлению диска, можно найти здесь. Обратите внимание, что учетные данные можно управлять здесь, используя те же подходы, описанные в Управлении учетными данными, т.е. use_environment_credentials может быть установлен в true в приведенном выше блоке настроек, чтобы использовать роли IAM.

Создание политики хранения

После настройки этот "диск" может быть использован носителем, объявленным в политике. В приведенном ниже примере мы предполагаем, что s3 является нашим единственным хранилищем. Это игнорирует более сложные архитектуры горячего и холодного хранения, где данные могут перемещаться на основе TTL и заполняемости.

Создание таблицы

Предполагая, что вы настроили ваш диск для использования корзины с правами на запись, вы должны иметь возможность создать таблицу, как в приведенном ниже примере. Для краткости мы используем подмножество колонок такси NYC и передаем данные непосредственно в таблицу, поддерживаемую S3:

В зависимости от аппаратного обеспечения, эта последняя вставка 1 миллиона строк может занять несколько минут для выполнения. Вы можете подтвердить прогресс через таблицу system.processes. Не стесняйтесь увеличивать количество строк до лимита в 10 миллионов и исследовать некоторые тестовые запросы.

Модификация таблицы

Иногда пользователям может потребоваться модифицировать политику хранения конкретной таблицы. Хотя это возможно, это имеет ограничения. Новая целевая политика должна содержать все диски и носители предыдущей политики, т.е. данные не будут мигрированы, чтобы удовлетворить изменения в политике. При проверке этих ограничений носители и диски будут определяться по их имени, и попытки нарушения приведут к ошибке. Однако, если вы используете предыдущие примеры, следующие изменения допустимы.

Здесь мы повторно используем основной носитель в нашей новой политике s3_tiered и вводим новый горячий носитель. Это использует диск по умолчанию, который состоит только из одного диска, настроенного через параметр <path>. Обратите внимание, что наши имена носителей и дисков не меняются. Новые вставки в таблицу будут находиться на диске по умолчанию, пока это не достигнет move_factor * disk_size - после чего данные будут перемещены в S3.

Обработка репликации

Репликация с S3 дисками может быть выполнена с использованием движка таблиц ReplicatedMergeTree. См. руководство по репликации одного шардирования через два региона AWS с использованием объектного хранилища S3 для подробностей.

Чтения и записи

Ниже приведены заметки, касающиеся реализации взаимодействия S3 с ClickHouse. Хотя они в основном информативны, они могут помочь читателям при Оптимизации производительности:

По умолчанию максимальное количество потоков обработки запросов, используемых на любом этапе конвейера обработки запросов, равно количеству ядер. Некоторые этапы более параллелизируемы, чем другие, поэтому это значение дает верхний предел. Несколько этапов запроса могут выполняться одновременно, так как данные передаются с диска. Таким образом, точное количество потоков, используемых для запроса, может превышать это значение. Измените через настройку max_threads.
Чтения в S3 асинхронные по умолчанию. Это поведение определяется настройкой remote_filesystem_read_method, установленной в значение threadpool по умолчанию. При обслуживании запроса ClickHouse читает гранулы в полосах. Каждая из этих полос потенциально содержит множество колонок. Поток будет читать столбцы для своих гранул по одному. Вместо того, чтобы делать это синхронно, происходит предварительная выборка всех колонок перед ожиданием данных. Это предлагает значительные улучшения в производительности по сравнению с синхронным ожиданием на каждом столбце. Пользователям обычно не нужно изменять эту настройку - см. Оптимизацию производительности.
Записи выполняются параллельно, с максимум 100 одновременными потоками записи файлов. max_insert_delayed_streams_for_parallel_write, который имеет значение по умолчанию 1000, контролирует количество S3 блобов, записываемых параллельно. Поскольку для каждого записываемого файла требуется буфер (~1 МБ), это эффективно ограничивает потребление памяти при вставке. В низких сценариях памяти сервера может быть целесообразно снизить это значение.

Использование S3 объектного хранилища в качестве диска ClickHouse

Если вам нужны пошаговые инструкции по созданию корзин и роли IAM, то разверните Создание корзин S3 и роли IAM и следуйте инструкциям:

Создание корзин S3 и пользователя IAM

В этой статье рассматриваются основы настройки пользователя AWS IAM, создания корзины S3 и настройки ClickHouse для использования корзины в качестве диска S3. Вам следует работать с вашей командой безопасности, чтобы определить необходимые разрешения и рассматривать их как отправную точку.

Создание пользователя AWS IAM

В этой процедуре мы создадим пользователя сервисной учетной записи, а не пользователя с правом входа.

Войдите в консоль управления AWS IAM.
В разделе "пользователи" выберите Добавить пользователей

Консоль управления AWS IAM - добавление нового пользователя

Введите имя пользователя и установите тип удостоверения на Ключ доступа - Программный доступ, затем выберите Далее: Разрешения

Настройка имени пользователя и типа доступа для пользователя IAM

Не добавляйте пользователя в какую-либо группу; выберите Далее: Метки

Пропуск назначения группы для пользователя IAM

Если вам не нужно добавлять никакие метки, выберите Далее: Обзор

Пропуск назначения меток для пользователя IAM

Выберите Создать пользователя

примечание
Предупреждающее сообщение о том, что у пользователя нет разрешений, можно игнорировать; разрешения будут предоставлены на корзину для пользователя в следующем разделе

Создание пользователя IAM без предупреждения о разрешениях

Пользователь создан; нажмите показать и скопируйте ключи доступа и секретные ключи.

примечание

Сохраните ключи в другом месте; это единственный раз, когда секретный ключ доступа будет доступен.

Просмотр и копирование ключей доступа пользователя IAM

Нажмите закрыть, затем найдите пользователя на экране пользователей.

Поиск вновь созданного пользователя IAM в списке пользователей

Скопируйте ARN (имя ресурса Amazon) и сохраните его для использования при настройке политики доступа для корзины.

Создание корзины S3

В разделе корзин S3 выберите Создать корзину

Введите имя корзины, оставив остальные параметры по умолчанию

примечание

Имя корзины должно быть уникальным в AWS, а не только в организации, иначе это приведет к ошибке.

Оставьте Блокировать все публичные доступы включенным; публичный доступ не нужен.

Настройка параметров корзины S3 с блокировкой публичного доступа

Выберите Создать корзину внизу страницы

Выберите ссылку, скопируйте ARN и сохраните его для использования при настройке политики доступа для корзины.
После создания корзины найдите новую корзину S3 в списке корзин S3 и выберите ссылку

Поиск вновь созданной корзины S3 в списке корзин

Выберите Создать папку

Введите имя папки, которая будет целью для диска ClickHouse S3, и выберите Создать папку

Установка имени папки для использования диска ClickHouse S3

Папка теперь должна быть видима в списке корзин

Просмотр вновь созданной папки в корзине S3

Выберите флажок для новой папки и нажмите Копировать URL Сохраните скопированный URL для использования в конфигурации хранения ClickHouse в следующем разделе.

Копирование URL папки S3 для конфигурации ClickHouse

Выберите вкладку Разрешения и нажмите кнопку Изменить в разделе Политика корзины

Добавьте политику корзины, пример ниже:

примечание

Вам следует работать с вашей командой безопасности, чтобы определить необходимые разрешения, рассматривайте их как отправную точку. Для получения дополнительной информации о политиках и настройках обратитесь к документации AWS: https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-policy-language-overview.html

Сохраните настройки политики.

Настройка ClickHouse для использования корзины S3 в качестве диска

Следующий пример основан на установленном пакете Deb Linux как службы с каталогами ClickHouse по умолчанию.

Создайте новый файл в директории config.d ClickHouse для хранения конфигурации хранения.

Добавьте следующее для конфигурации хранения; подставляя путь к корзине, ключ доступа и секретные ключи из предыдущих шагов.

примечание

Теги s3_disk и s3_cache внутри тега <disks> являются произвольными метками. Их можно установить на что-то другое, но та же метка должна быть использована в теге <disk> под тегом <policies>, чтобы ссылаться на диск. Тег <S3_main> также произвольный и являет собой имя политики, которое будет использоваться в качестве идентификатора для хранения при создании ресурсов в ClickHouse.

Представленная выше конфигурация предназначена для ClickHouse версии 22.8 и выше, если вы используете более старую версию, пожалуйста, смотрите хранение данных.

Для получения дополнительной информации о использовании S3: Руководство по интеграциям: MergeTree с поддержкой S3

Обновите владельца файла на пользователя и группу clickhouse.

Перезапустите экземпляр ClickHouse, чтобы изменения вступили в силу.

Тестирование

Войдите через клиент ClickHouse, что-то вроде следующего.

Создайте таблицу, указав новую политику хранения S3.

Покажите, что таблица была создана с правильной политикой.

Вставьте тестовые строки в таблицу.

Просмотрите строки.

В консоли AWS перейдите к корзинам и выберите новую, а также папку. Вы должны увидеть что-то похожее на следующее:

Просмотр корзины S3 в консоли AWS с показанными файлами данных ClickHouse, хранящимися в S3

Репликация одного шардирования через два региона AWS с использованием объектного хранилища S3

подсказка

Объектное хранилище используется по умолчанию в ClickHouse Cloud, вам не нужно следовать этой процедуре, если вы работаете в ClickHouse Cloud.

Планирование развертывания

Этот учебник основан на развертывании двух узлов сервера ClickHouse и трех узлов ClickHouse Keeper в AWS EC2. Хранилище данных для серверов ClickHouse - это S3. Используются два региона AWS, каждый из которых имеет сервер ClickHouse и корзину S3, чтобы поддерживать восстановление после сбоя.

Таблицы ClickHouse реплицируются между двумя серверами, а следовательно, и между двумя регионами.

Установка программного обеспечения

Узлы сервера ClickHouse

Обратитесь к инструкциям по установке при выполнении шагов развертывания на узлах сервера ClickHouse.

Развертывание ClickHouse

Разверните ClickHouse на двух хостах, в образцах конфигураций они называются chnode1, chnode2.

Поместите chnode1 в один регион AWS, а chnode2 - во второй.

Развертывание ClickHouse Keeper

Разверните ClickHouse Keeper на трех хостах, в образцах конфигураций они называются keepernode1, keepernode2 и keepernode3. keepernode1 можно развернуть в том же регионе, что и chnode1, keepernode2 с chnode2, а keepernode3 в любом регионе, но в другой доступной зоне по сравнению с узлом ClickHouse в этом регионе.

Обратитесь к инструкциям по установке при выполнении шагов развертывания на узлах ClickHouse Keeper.