将 Azure Synapse 与 ClickHouse 集成
ClickHouse Supported
Azure Synapse 是一项集成分析服务,将大数据、数据科学和数据仓库能力融合在一起,用于实现快速的大规模数据分析。 在 Synapse 中,Spark 池提供按需、可伸缩的 Apache Spark 集群,使用户能够运行复杂的数据转换、机器学习任务,以及与外部系统的集成。
本文将介绍在 Azure Synapse 中使用 Apache Spark 时,如何集成 ClickHouse Spark connector。
添加连接器的依赖项
Azure Synapse 支持三种级别的包维护:
- 默认包
- Spark 池级别
- 会话级别
请按照《管理 Apache Spark 池库》指南进行操作,并将以下必需的依赖项添加到你的 Spark 应用程序中:
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar- 官方 Maven 仓库clickhouse-jdbc-{java_client_version}-all.jar- 官方 Maven 仓库
请查阅我们的 Spark Connector 兼容性矩阵文档,以了解哪些版本更适合你的需求。
将 ClickHouse 添加为目录
可以通过多种方式向会话中添加 Spark 配置:
- 使用自定义配置文件,在会话启动时加载
- 通过 Azure Synapse UI 添加配置
- 在 Synapse notebook 中添加配置
请参考 管理 Apache Spark 配置, 并添加连接器所需的 Spark 配置。
例如,您可以在 Synapse notebook 中使用以下设置来配置 Spark 会话:
请确保它位于第一个单元格中,如下所示:

请访问 ClickHouse Spark 配置页面以获取更多配置信息。
参考资料
在使用 ClickHouse Cloud 时,请务必设置必需的 Spark 配置项。\
设置验证
要验证依赖和配置是否已成功完成,请访问本次会话的 Spark UI,然后进入 Environment 选项卡。
在其中查找与你的 ClickHouse 相关的设置:
