跳到主要内容
跳到主要内容

将 Azure Synapse 与 ClickHouse 集成

ClickHouse Supported

Azure Synapse 是一项集成分析服务,将大数据、数据科学和数据仓库能力融合在一起,用于实现快速的大规模数据分析。 在 Synapse 中,Spark 池提供按需、可伸缩的 Apache Spark 集群,使用户能够运行复杂的数据转换、机器学习任务,以及与外部系统的集成。

本文将介绍在 Azure Synapse 中使用 Apache Spark 时,如何集成 ClickHouse Spark connector

添加连接器的依赖项

Azure Synapse 支持三种级别的包维护

  1. 默认包
  2. Spark 池级别
  3. 会话级别

请按照《管理 Apache Spark 池库》指南进行操作,并将以下必需的依赖项添加到你的 Spark 应用程序中:

请查阅我们的 Spark Connector 兼容性矩阵文档,以了解哪些版本更适合你的需求。

将 ClickHouse 添加为目录

可以通过多种方式向会话中添加 Spark 配置:

  • 使用自定义配置文件,在会话启动时加载
  • 通过 Azure Synapse UI 添加配置
  • 在 Synapse notebook 中添加配置

请参考 管理 Apache Spark 配置, 并添加连接器所需的 Spark 配置

例如,您可以在 Synapse notebook 中使用以下设置来配置 Spark 会话:

%%configure -f
{
    "conf": {
        "spark.sql.catalog.clickhouse": "com.clickhouse.spark.ClickHouseCatalog",
        "spark.sql.catalog.clickhouse.host": "<ClickHouse 主机地址>",
        "spark.sql.catalog.clickhouse.protocol": "https",
        "spark.sql.catalog.clickhouse.http_port": "<端口号>",
        "spark.sql.catalog.clickhouse.user": "<用户名>",
        "spark.sql.catalog.clickhouse.password": "password",
        "spark.sql.catalog.clickhouse.database": "default"
    }
}

请确保它位于第一个单元格中,如下所示:

通过 notebook 设置 Spark 配置

请访问 ClickHouse Spark 配置页面以获取更多配置信息。

参考资料

在使用 ClickHouse Cloud 时,请务必设置必需的 Spark 配置项。\

设置验证

要验证依赖和配置是否已成功完成,请访问本次会话的 Spark UI,然后进入 Environment 选项卡。 在其中查找与你的 ClickHouse 相关的设置:

使用 Spark UI 验证 ClickHouse 设置

其他资源