跳到主要内容
跳到主要内容

将 Azure Synapse 与 ClickHouse 集成

Azure Synapse 是一个集成的分析服务,结合了大数据、数据科学和仓库,以实现快速、大规模的数据分析。在 Synapse 中,Spark 池提供按需、可扩展的 Apache Spark 集群,使用户能够运行复杂的数据转换、机器学习和与外部系统的集成。

本文将向您展示在 Azure Synapse 中使用 Apache Spark 时如何集成 ClickHouse Spark 连接器

添加连接器的依赖项

Azure Synapse 支持三种级别的 包维护

  1. 默认包
  2. Spark 池级别
  3. 会话级别

请遵循 管理 Apache Spark 池库指南,并将以下所需依赖项添加到您的 Spark 应用程序中:

  • clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar - 官方 Maven
  • clickhouse-jdbc-{java_client_version}-all.jar - 官方 Maven

请访问我们的 Spark 连接器兼容性矩阵 文档,以了解哪些版本适合您的需求。

将 ClickHouse 添加为目录

有多种方法可以将 Spark 配置添加到您的会话中:

  • 自定义配置文件以在会话中加载
  • 通过 Azure Synapse UI 添加配置
  • 在您的 Synapse 笔记本中添加配置

请遵循 管理 Apache Spark 配置,并添加 连接器所需的 Spark 配置

例如,您可以在笔记本中使用以下设置配置 Spark 会话:

确保它位于第一个单元格中,如下所示:

请访问 ClickHouse Spark 配置页面 以获取其他设置。

信息

在使用 ClickHouse Cloud 时,请确保设置 所需的 Spark 设置

设置验证

要验证依赖项和配置是否成功设置,请访问您的会话的 Spark UI,并转到您的 Environment 选项卡。那里,查找与 ClickHouse 相关的设置:

其他资源