Перейти к основному содержанию
Перейти к основному содержанию

Интеграция с ClickHouse Cloud

Введение

ClickPipes — это управляемая интеграционная платформа, которая делает приём данных из широкого набора источников таким же простым, как несколько кликов. Разработанная для самых требовательных рабочих нагрузок, масштабируемая и надёжная архитектура ClickPipes обеспечивает стабильную производительность и надёжность. ClickPipes можно использовать как для долгосрочной потоковой передачи данных, так и для разовой загрузки данных.

Стек ClickPipes

Поддерживаемые источники данных

НазваниеЛоготипТипСтатусОписание
Apache KafkaПотоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из Apache Kafka в ClickHouse Cloud.
Confluent CloudПотоковые данныеСтабильноИспользуйте объединённые возможности Confluent и ClickHouse Cloud благодаря нашей прямой интеграции.
Redpanda
Логотип Redpanda
Потоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из Redpanda в ClickHouse Cloud.
AWS MSKПотоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из AWS MSK в ClickHouse Cloud.
Azure Event HubsПотоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из Azure Event Hubs в ClickHouse Cloud. См. раздел Azure Event Hubs FAQ для получения дополнительных сведений.
WarpStreamПотоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из WarpStream в ClickHouse Cloud.
Amazon S3Объектное хранилищеСтабильноНастройте ClickPipes для приёма больших объёмов данных из объектного хранилища.
Google Cloud StorageОбъектное хранилищеСтабильноНастройте ClickPipes для приёма больших объёмов данных из объектного хранилища.
DigitalOcean SpacesОбъектное хранилищеСтабильноНастройте ClickPipes для приёма больших объёмов данных из объектного хранилища.
Azure Blob StorageОбъектное хранилищеСтабильноНастройте ClickPipes для приёма больших объёмов данных из объектного хранилища.
Amazon KinesisПотоковые данныеСтабильноНастройте ClickPipes и начните приём потоковых данных из Amazon Kinesis в ClickHouse Cloud.
PostgresСУБДСтабильноНастройте ClickPipes и начните приём данных из Postgres в ClickHouse Cloud.
MySQLСУБДПубличная бетаНастройте ClickPipes и начните приём данных из MySQL в ClickHouse Cloud.
MongoDBСУБДЗакрытая предварительная версияНастройте ClickPipes и начните приём данных из MongoDB в ClickHouse Cloud.

В ClickPipes будут появляться новые коннекторы; подробнее вы можете узнать, связавшись с нами.

Список статических IP-адресов

Ниже приведены статические IP-адреса NAT (разделенные по регионам), которые ClickPipes использует для подключения к вашим внешним сервисам. Добавьте IP-адреса, соответствующие региону вашего инстанса, в список разрешенных IP-адресов, чтобы разрешить трафик.

Для всех сервисов трафик ClickPipes будет исходить из региона по умолчанию, определяемого местоположением вашего сервиса:

  • eu-central-1: Для всех сервисов в регионах ЕС (включая регионы GCP и Azure в ЕС).
  • us-east-1: Для всех сервисов в AWS us-east-1.
  • ap-south-1: Для сервисов в AWS ap-south-1, созданных 25 июня 2025 года или позже (сервисы, созданные до этой даты, используют IP-адреса us-east-2).
  • ap-northeast-2: Для сервисов в AWS ap-northeast-2, созданных 14 ноября 2025 года или позже (сервисы, созданные до этой даты, используют IP-адреса us-east-2).
  • ap-southeast-2: Для сервисов в AWS ap-southeast-2, созданных 25 июня 2025 года или позже (сервисы, созданные до этой даты, используют IP-адреса us-east-2).
  • us-west-2: Для сервисов в AWS us-west-2, созданных 24 июня 2025 года или позже (сервисы, созданные до этой даты, используют IP-адреса us-east-2).
  • us-east-2: Для всех остальных регионов, явно не указанных выше (включая регионы GCP и Azure в США).
Регион AWSIP-адреса
eu-central-118.195.233.217, 3.127.86.90, 35.157.23.2, 18.197.167.47, 3.122.25.29, 52.28.148.40
us-east-154.82.38.199, 3.90.133.29, 52.5.177.8, 3.227.227.145, 3.216.6.184, 54.84.202.92, 3.131.130.196, 3.23.172.68, 3.20.208.150
us-east-23.131.130.196, 3.23.172.68, 3.20.208.150, 3.132.20.192, 18.119.76.110, 3.134.185.180
ap-south-1 (с 25 июня 2025 года)13.203.140.189, 13.232.213.12, 13.235.145.208, 35.154.167.40, 65.0.39.245, 65.1.225.89
ap-northeast-2 (с 14 ноя 2025 г.)3.38.68.69, 52.78.68.128, 13.209.152.13, 3.38.24.84, 3.37.159.31, 3.34.25.104
ap-southeast-2 (с 25 июня 2025 г.)3.106.48.103, 52.62.168.142, 13.55.113.162, 3.24.61.148, 54.206.77.184, 54.79.253.17
us-west-2 (с 24 июня 2025 г.)52.42.100.5, 44.242.47.162, 52.40.44.52, 44.227.206.163, 44.246.241.23, 35.83.230.19
Дополнительно3.132.20.192, 18.119.76.110, 3.134.185.180

Настройка параметров ClickHouse

ClickHouse Cloud предоставляет разумные значения по умолчанию для большинства сценариев использования. Однако, если вам нужно изменить некоторые настройки ClickHouse для целевых таблиц ClickPipes, наиболее гибким решением будет выделенная роль для ClickPipes. Шаги:

  1. создайте пользовательскую роль CREATE ROLE my_clickpipes_role SETTINGS .... См. синтаксис CREATE ROLE для подробностей.
  2. добавьте пользовательскую роль пользователю ClickPipes на шаге Details and Settings при создании ClickPipes.
Назначение пользовательской роли

Настройка расширенных параметров ClickPipes

ClickPipes предоставляет разумные значения по умолчанию, которые удовлетворяют требованиям большинства вариантов использования. Если в вашем случае требуется дополнительная тонкая настройка, вы можете изменить следующие параметры:

ClickPipes для объектного хранилища

ПараметрЗначение по умолчаниюОписание
Max insert bytes10GBКоличество байт, обрабатываемых в одном пакете вставки.
Max file count100Максимальное количество файлов, обрабатываемых в одном пакете вставки.
Max threadsauto(3)Максимальное количество параллельных потоков для обработки файлов.
Max insert threads1Максимальное количество параллельных потоков вставки для обработки файлов.
Min insert block size bytes1GBМинимальный размер блока в байтах, который может быть вставлен в таблицу.
Max download threads4Максимальное количество параллельных потоков загрузки.
Object storage polling interval30sОпределяет максимальный период ожидания перед вставкой данных в кластер ClickHouse.
Parallel distributed insert select2Параметр parallel distributed insert select.
Parallel view processingfalseОпределяет, следует ли выполнять отправку в присоединённые представления параллельно, а не последовательно.
Use cluster functiontrueОпределяет, следует ли обрабатывать файлы параллельно на нескольких узлах.
Расширенные параметры для ClickPipes

Потоковые ClickPipes

ПараметрЗначение по умолчаниюОписание
Streaming max insert wait time5sОпределяет максимальный период ожидания перед вставкой данных в кластер ClickHouse.

Отчёт об ошибках

ClickPipes будет сохранять ошибки в двух отдельных таблицах в зависимости от типа ошибки, возникшей в процессе ингестии.

Ошибки записей

ClickPipes создаст таблицу рядом с вашей целевой таблицей с суффиксом <destination_table_name>_clickpipes_error. Эта таблица будет содержать любые ошибки, связанные с некорректными данными или несоответствием схемы, и будет содержать полное содержимое недопустимого сообщения. Для этой таблицы задан TTL 7 дней.

Системные ошибки

Ошибки, связанные с работой ClickPipe, будут сохраняться в таблице system.clickpipes_log. Она будет содержать все остальные ошибки, связанные с работой вашего ClickPipe (сеть, подключение и т. д.). Для этой таблицы задан TTL 7 дней.

Если ClickPipes не удаётся подключиться к источнику данных в течение 15 минут или к целевой системе в течение 1 часа, экземпляр ClickPipes останавливается и сохраняет соответствующее сообщение в таблице системных ошибок (при условии, что экземпляр ClickHouse доступен).

FAQ

  • Что такое ClickPipes?

    ClickPipes — это функция ClickHouse Cloud, которая упрощает подключение сервисов ClickHouse к внешним источникам данных, в частности к Kafka. С ClickPipes для Kafka пользователи могут легко и непрерывно загружать данные в ClickHouse, делая их доступными для аналитики в режиме реального времени.

  • Поддерживает ли ClickPipes преобразование данных?

    Да, ClickPipes поддерживает базовое преобразование данных, предоставляя DDL для их создания. Затем вы можете применять более сложные преобразования к данным по мере их загрузки в целевую таблицу в сервисе ClickHouse Cloud, используя функциональность материализованных представлений ClickHouse.

  • Влечёт ли использование ClickPipes дополнительные затраты?

    ClickPipes тарифицируется по двум показателям: объём принятых данных (Ingested Data) и вычислительные ресурсы (Compute). Полная информация о ценах доступна на этой странице. Запуск ClickPipes также может приводить к косвенным затратам на вычисления и хранилище в целевом сервисе ClickHouse Cloud, аналогично любым нагрузкам на приём данных.

  • Есть ли способ обрабатывать ошибки или сбои при использовании ClickPipes для Kafka?

    Да, ClickPipes для Kafka автоматически выполняет повторные попытки при сбоях при чтении данных из Kafka из‑за любых эксплуатационных проблем, включая сетевые проблемы, проблемы с подключением и т. д. В случае некорректных данных или недопустимой схемы ClickPipes сохранит запись в таблицу record_error и продолжит обработку.