从 MySQL 向 ClickHouse 进行数据摄取(CDC)
目前,通过 ClickPipes 从 MySQL 向 ClickHouse Cloud 进行数据摄取处于私人预览阶段。
您可以使用 ClickPipes 将源 MySQL 数据库中的数据摄取到 ClickHouse Cloud。源 MySQL 数据库可以托管在本地或云中。
前提条件
要开始,您首先需要确保您的 MySQL 数据库已正确设置。根据您的源 MySQL 实例,您可以遵循以下任一指南:
一旦您的源 MySQL 数据库设置完成,您可以继续创建您的 ClickPipe。
创建 ClickPipe
确保您已登录到您的 ClickHouse Cloud 帐户。如果您还没有帐户,您可以在 这里 注册。
- 在 ClickHouse Cloud 控制台中,导航到您的 ClickHouse Cloud 服务。

- 在左侧菜单中选择
Data Sources
按钮,然后点击 "Set up a ClickPipe"

- 选择
MySQL CDC
瓷砖

添加源 MySQL 数据库连接
-
填写您在前提条件步骤中配置的源 MySQL 数据库的连接详细信息。
信息在开始添加连接详细信息之前,请确保您已在防火墙规则中列入 ClickPipes IP 地址的白名单。您可以在以下页面找到 ClickPipes IP 地址列表。 有关更多信息,请参考本页顶部链接的源 MySQL 设置指南 prerequisites。
(可选) 设置 SSH 隧道
如果您的源 MySQL 数据库不可公开访问,您可以指定 SSH 隧道详细信息。
-
启用 "Use SSH Tunnelling" 切换开关。
-
填写 SSH 连接详细信息。
-
若要使用基于密钥的身份验证,请点击 "Revoke and generate key pair" 生成新的密钥对,并将生成的公钥复制到您的 SSH 服务器下的
~/.ssh/authorized_keys
。 -
点击 "Verify Connection" 验证连接。
请确保在防火墙规则中为 SSH 突破主机列入 ClickPipes IP 地址 的白名单,以便 ClickPipes 可以建立 SSH 隧道。
填写连接详细信息后,点击 "Next"。
配置高级设置
如果需要,您可以配置高级设置。以下是每个设置的简要描述:
- 同步间隔:这是 ClickPipes 查询源数据库以获取更改的频率。对于对成本敏感的用户,我们建议将其保持在较高值(超过
3600
)。 - 初始加载的并行线程:用于获取初始快照的并行工作者数量。当您的表数量较大时,这非常有用,您可以控制用于获取初始快照的并行工作者数量。此设置是按表设置的。
- 拉取批处理大小:一次批量拉取的行数。这是一个最佳努力设置,并可能在所有情况下不被尊重。
- 每个分区的快照行数:在初始快照期间在每个分区中获取的行数。当您的表中有大量行时,这很有用,您可以控制在每个分区中获取的行数。
- 并行快照的表数量:在初始快照期间并行获取的表数量。当您的表数量较大时,这很有用,您可以控制并行获取的表数。
配置表
-
在此选择 ClickPipe 的目标数据库。您可以选择现有的数据库或创建一个新数据库。
-
您可以选择要从源 MySQL 数据库中复制的表。在选择表时,您还可以选择在目标 ClickHouse 数据库中重命名表并排除特定列。
审核权限并启动 ClickPipe
-
从权限下拉菜单中选择 "Full access" 角色,并点击 "Complete Setup"。
最后,请参考 "ClickPipes for MySQL FAQ" 页面以获取有关常见问题及其解决方法的更多信息。