Azure Synapse 与 ClickHouse 集成 - ClickHouse Documentation

Azure Synapse 是一项集成分析服务，结合了大数据、数据科学和数据仓库功能，可实现快速的大规模数据分析。在 Synapse 中，Spark 池提供按需、可扩展的 Apache Spark 集群，让你能够执行复杂的数据转换、机器学习任务，以及与外部系统集成。本文将介绍在 Azure Synapse 中使用 Apache Spark 时，如何集成 ClickHouse Spark connector。

添加连接器依赖项

Azure Synapse 支持三个级别的包管理：

默认包
Spark 池级别
会话级别

请按照 Apache Spark 池库管理指南中的说明，将以下必需依赖项添加到 Spark 应用程序中

clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar - 官方 Maven
clickhouse-jdbc-{java_client_version}-all.jar - 官方 Maven

请参阅我们的 Spark Connector Compatibility Matrix 文档，了解哪些版本适合您的需求。

将 ClickHouse 添加为 catalog

可通过多种方式将 Spark 配置添加到当前会话：

加载会话时使用自定义配置文件
通过 Azure Synapse UI 添加配置
在 Synapse 笔记本中添加配置

请按照此文档管理 Apache Spark 配置并添加连接器所需的 Spark 配置。例如，你可以在笔记本中使用以下设置来配置 Spark 会话：

%%configure -f
{
    "conf": {
        "spark.sql.catalog.clickhouse": "com.clickhouse.spark.ClickHouseCatalog",
        "spark.sql.catalog.clickhouse.host": "<clickhouse host>",
        "spark.sql.catalog.clickhouse.protocol": "https",
        "spark.sql.catalog.clickhouse.http_port": "<port>",
        "spark.sql.catalog.clickhouse.user": "<username>",
        "spark.sql.catalog.clickhouse.password": "password",
        "spark.sql.catalog.clickhouse.database": "default"
    }
}

请确保它位于第一个单元格中，如下所示：如需更多设置，请访问 ClickHouse Spark 配置页面。

使用 ClickHouse Cloud 时，请务必设置所需的 Spark 配置。

设置验证

要验证依赖项和配置是否已成功完成设置，请访问当前会话的 Spark UI，并转到 Environment 选项卡。在这里，查找与你的 ClickHouse 相关的设置：

其他资源

最后修改于 2026年7月24日

Apache Beam您可以使用 Apache Beam 将数据摄取到 ClickHouse

​添加连接器依赖项

​将 ClickHouse 添加为 catalog

​设置验证

​其他资源

添加连接器依赖项

将 ClickHouse 添加为 catalog

设置验证

其他资源