将 Azure Synapse 与 ClickHouse 集成
Azure Synapse 是一种集成的分析服务,结合了大数据、数据科学和仓储,能够实现快速的大规模数据分析。在 Synapse 中,Spark 池提供按需的、可扩展的 Apache Spark 集群,让用户能够运行复杂的数据转换、机器学习和与外部系统的集成。
本文将向您展示如何在 Azure Synapse 中使用 Apache Spark 时集成 ClickHouse Spark 连接器。
添加连接器的依赖项
Azure Synapse 支持三种级别的 包维护:
- 默认包
- Spark 池级别
- 会话级别
请遵循 管理 Apache Spark 池的库指南,并将以下所需依赖项添加到您的 Spark 应用程序中:
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar
- 官方 mavenclickhouse-jdbc-{java_client_version}-all.jar
- 官方 maven
请访问我们的 Spark 连接器兼容性矩阵 文档,了解哪些版本适合您的需求。
将 ClickHouse 添加为目录
有多种方法可以将 Spark 配置添加到您的会话中:
- 自定义配置文件,以随您的会话加载
- 通过 Azure Synapse UI 添加配置
- 在您的 Synapse 笔记本中添加配置
请遵循此 管理 Apache Spark 配置 并添加 连接器所需的 Spark 配置。
例如,您可以在笔记本中使用以下设置配置您的 Spark 会话:
确保它位于第一个单元中,如下所示:

请访问 ClickHouse Spark 配置页面 了解其他设置。
信息
在使用 ClickHouse Cloud 时,请确保设置 所需的 Spark 设置。
设置验证
要验证依赖项和配置是否成功设置,请访问您的会话的 Spark UI,并转到您的 Environment
选项卡。在那里,查找与 ClickHouse 相关的设置:
