与 ClickHouse Cloud 集成

介绍

ClickPipes 是一个托管集成平台，使从多种来源摄取数据变得简单，仅需点击几个按钮。ClickPipes 设计用于满足最苛刻的工作负载，其强大且可扩展的架构确保持续的性能和可靠性。ClickPipes 可用于长期流式传输需求或一次性数据加载作业。

支持的数据源

名称	类型	状态	描述
Apache Kafka	流式	稳定	配置 ClickPipes 并开始将流式数据从 Apache Kafka 导入 ClickHouse Cloud。
Confluent Cloud	流式	稳定	通过我们的直接集成释放 Confluent 和 ClickHouse Cloud 的组合力量。
Redpanda	流式	稳定	配置 ClickPipes 并开始将流式数据从 Redpanda 导入 ClickHouse Cloud。
AWS MSK	流式	稳定	配置 ClickPipes 并开始将流式数据从 AWS MSK 导入 ClickHouse Cloud。
Azure Event Hubs	流式	稳定	配置 ClickPipes 并开始将流式数据从 Azure Event Hubs 导入 ClickHouse Cloud。有关指导，请参见 Azure Event Hubs FAQ。
WarpStream	流式	稳定	配置 ClickPipes 并开始将流式数据从 WarpStream 导入 ClickHouse Cloud。
Amazon S3	对象存储	稳定	配置 ClickPipes 从对象存储中摄取大量数据。
Google Cloud Storage	对象存储	稳定	配置 ClickPipes 从对象存储中摄取大量数据。
DigitalOcean Spaces	对象存储	稳定	配置 ClickPipes 从对象存储中摄取大量数据。
Azure Blob Storage	对象存储	稳定	配置 ClickPipes 从对象存储中摄取大量数据。
Amazon Kinesis	流式	稳定	配置 ClickPipes 并开始将流式数据从 Amazon Kinesis 导入 ClickHouse Cloud。
Postgres	DBMS	稳定	配置 ClickPipes 并开始将数据从 Postgres 导入 ClickHouse Cloud。
MySQL	DBMS	公共测试版	配置 ClickPipes 并开始将数据从 MySQL 导入 ClickHouse Cloud。
MongoDB	DBMS	私人预览	配置 ClickPipes 并开始将数据从 MongoDB 导入 ClickHouse Cloud。

更多连接器将会添加到 ClickPipes，您可以通过联系我们了解更多信息。

静态 IP 列表

以下是 ClickPipes 用于连接到外部服务的静态 NAT IP（按区域划分）。将相关实例区域的 IP 添加到您的 IP 允许列表中以允许流量。

对于所有服务，ClickPipes 的流量将源自基于服务位置的默认区域：

eu-central-1：适用于所有 EU 区域的服务（包括 GCP 和 Azure EU 区域）。
us-east-1：适用于 AWS us-east-1 中的所有服务。
ap-south-1：适用于 AWS ap-south-1 自 2025 年 6 月 25 日创建的服务（在此日期之前创建的服务使用 us-east-2 的 IP）。
ap-southeast-2：适用于 AWS ap-southeast-2 自 2025 年 6 月 25 日创建的服务（在此日期之前创建的服务使用 us-east-2 的 IP）。
us-west-2：适用于 AWS us-west-2 自 2025 年 6 月 24 日创建的服务（在此日期之前创建的服务使用 us-east-2 的 IP）。
us-east-2：适用于未明确列出的所有其他区域（包括 GCP 和 Azure US 区域）。

AWS 区域	IP 地址
eu-central-1	`18.195.233.217`, `3.127.86.90`, `35.157.23.2`, `18.197.167.47`, `3.122.25.29`, `52.28.148.40`
us-east-1	`54.82.38.199`, `3.90.133.29`, `52.5.177.8`, `3.227.227.145`, `3.216.6.184`, `54.84.202.92`, `3.131.130.196`, `3.23.172.68`, `3.20.208.150`
us-east-2	`3.131.130.196`, `3.23.172.68`, `3.20.208.150`, `3.132.20.192`, `18.119.76.110`, `3.134.185.180`
ap-south-1 (自 2025 年 6 月 25 日起)	`13.203.140.189`, `13.232.213.12`, `13.235.145.208`, `35.154.167.40`, `65.0.39.245`, `65.1.225.89`
ap-southeast-2 (自 2025 年 6 月 25 日起)	`3.106.48.103`, `52.62.168.142`, `13.55.113.162`, `3.24.61.148`, `54.206.77.184`, `54.79.253.17`
us-west-2 (自 2025 年 6 月 24 日起)	`52.42.100.5`, `44.242.47.162`, `52.40.44.52`, `44.227.206.163`, `44.246.241.23`, `35.83.230.19`

调整 ClickHouse 设置

ClickHouse Cloud 为大多数用例提供了合理的默认值。然而，如果您需要针对 ClickPipes 目标表调整一些 ClickHouse 设置，特别为 ClickPipes 创建的角色是最灵活的解决方案。步骤：

创建一个自定义角色 CREATE ROLE my_clickpipes_role SETTINGS ...。有关详细信息，请参阅 CREATE ROLE 语法。
在 ClickPipes 创建期间的“详细信息和设置”步骤中，将自定义角色添加到 ClickPipes 用户。

调整 ClickPipes 高级设置

ClickPipes 提供了覆盖大多数用例需求的合理默认值。如果您的用例需要额外的微调，您可以调整以下设置：

对象存储 ClickPipes

设置	默认值	描述
`Max insert bytes`	10GB	在单个插入批处理中处理的字节数。
`Max file count`	100	在单个插入批处理中处理的最大文件数。
`Max threads`	auto(3)	文件处理的最大并发线程数。
`Max insert threads`	1	文件处理的最大并发插入线程数。
`Min insert block size bytes`	1GB	可插入到表中的块的最小字节大小。
`Max download threads`	4	最大并发下载线程数。
`Object storage polling interval`	30s	配置在将数据插入 ClickHouse 集群之前的最大等待时间。
`Parallel distributed insert select`	2	并行分布式插入选择设置。
`Parallel view processing`	false	是否启用附加视图的并行推送而非顺序推送。
`Use cluster function`	true	是否在多个节点之间并行处理文件。

流式 ClickPipes

设置	默认值	描述
`Streaming max insert wait time`	5s	配置在将数据插入 ClickHouse 集群之前的最大等待时间。

错误报告

ClickPipes 将根据数据摄取过程中的错误类型将错误存储在两个单独的表中。

记录错误

ClickPipes 将在您的目标表旁创建一个表，后缀为 <destination_table_name>_clickpipes_error。该表将包含来自格式错误的数据或模式不匹配的任何错误，并将包括整个无效消息。该表具有 TTL 为 7 天。

系统错误

与 ClickPipe 操作相关的错误将存储在 system.clickpipes_log 表中。这将存储与您的 ClickPipe 操作相关的所有其他错误（网络、连接等）。该表具有 TTL 为 7 天。

如果 ClickPipes 在 15 分钟内无法连接到数据源，或者在 1 小时内无法连接到目标，ClickPipes 实例将停止并在系统错误表中存储适当的消息（前提是 ClickHouse 实例可用）。

常见问题

什么是 ClickPipes？

ClickPipes 是 ClickHouse Cloud 的一项功能，使用户能够轻松地将 ClickHouse 服务连接到外部数据源，特别是 Kafka。通过 ClickPipes for Kafka，用户可以轻松地将数据持续加载到 ClickHouse 中，使其可用于实时分析。
ClickPipes 支持数据转换吗？

是的，ClickPipes 支持通过暴露 DDL 创建来进行基本的数据转换。您可以利用 ClickHouse 的物化视图功能对加载到 ClickHouse Cloud 服务的目标表的数据应用更高级的转换。
使用 ClickPipes 会产生额外费用吗？

ClickPipes 在两个维度上计费：摄取的数据和计算。定价的完整细节可以在此页面上找到。运行 ClickPipes 也可能会在目标 ClickHouse Cloud 服务上产生间接的计算和存储费用，类似于任何摄取工作负载。
在使用 ClickPipes for Kafka 时，有没有办法处理错误或故障？

是的，ClickPipes for Kafka 在从 Kafka 消费数据时，如果遇到任何操作问题（包括网络问题、连接问题等），将自动重试。在遇到格式错误的数据或无效的模式时，ClickPipes 将在 record_error 表中存储记录并继续处理。

介绍​

支持的数据源​

静态 IP 列表​

调整 ClickHouse 设置​

调整 ClickPipes 高级设置​

对象存储 ClickPipes​

流式 ClickPipes​

错误报告​

记录错误​

系统错误​

常见问题​

介绍