将 Azure Synapse 与 ClickHouse 集成
Azure Synapse 是一个集成的分析服务,结合了大数据、数据科学和仓库,以实现快速、大规模的数据分析。在 Synapse 中,Spark 池提供按需、可扩展的 Apache Spark 集群,使用户能够运行复杂的数据转换、机器学习和与外部系统的集成。
本文将向您展示在 Azure Synapse 中使用 Apache Spark 时如何集成 ClickHouse Spark 连接器。
添加连接器的依赖项
Azure Synapse 支持三种级别的 包维护:
- 默认包
- Spark 池级别
- 会话级别
请遵循 管理 Apache Spark 池库指南,并将以下所需依赖项添加到您的 Spark 应用程序中:
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar
- 官方 Mavenclickhouse-jdbc-{java_client_version}-all.jar
- 官方 Maven
请访问我们的 Spark 连接器兼容性矩阵 文档,以了解哪些版本适合您的需求。
将 ClickHouse 添加为目录
有多种方法可以将 Spark 配置添加到您的会话中:
- 自定义配置文件以在会话中加载
- 通过 Azure Synapse UI 添加配置
- 在您的 Synapse 笔记本中添加配置
请遵循 管理 Apache Spark 配置,并添加 连接器所需的 Spark 配置。
例如,您可以在笔记本中使用以下设置配置 Spark 会话:
确保它位于第一个单元格中,如下所示:

请访问 ClickHouse Spark 配置页面 以获取其他设置。
信息
在使用 ClickHouse Cloud 时,请确保设置 所需的 Spark 设置。
设置验证
要验证依赖项和配置是否成功设置,请访问您的会话的 Spark UI,并转到您的 Environment
选项卡。那里,查找与 ClickHouse 相关的设置:
