Интеграция Azure Synapse с ClickHouse
Azure Synapse — это интегрированный аналитический сервис, который объединяет большие данные, науку о данных и хранилища для обеспечения быстрого и масштабного анализа данных. В Synapse кластеры Spark предоставляют по запросу масштабируемые Apache Spark кластеры, позволяя пользователям выполнять сложные преобразования данных, машинное обучение и интеграцию с внешними системами.
В этой статье мы покажем, как интегрировать коннектор ClickHouse Spark при работе с Apache Spark в Azure Synapse.
Добавление зависимостей коннектора
Azure Synapse поддерживает три уровня обслуживания пакетов:
- Пакеты по умолчанию
- Уровень пула Spark
- Уровень сессии
Следуйте руководству по управлению библиотеками для Apache Spark pools и добавьте следующие необходимые зависимости в ваше Spark приложение:
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar
- официальный mavenclickhouse-jdbc-{java_client_version}-all.jar
- официальный maven
Пожалуйста, посетите нашу матрицу совместимости коннектора Spark, чтобы понять, какие версии соответствуют вашим требованиям.
Добавление ClickHouse в качестве каталога
Существует несколько способов добавить конфигурации Spark в вашу сессию:
- Пользовательский файл конфигурации для загрузки с вашей сессией
- Добавление конфигураций через интерфейс Azure Synapse
- Добавление конфигураций в вашем блокноте Synapse
Следуйте управлению конфигурацией Apache Spark и добавьте необходимые Spark конфигурации коннектора.
Например, вы можете настроить вашу Spark сессию в вашем блокноте с помощью следующих настроек:
Убедитесь, что это будет в первой ячейке следующим образом:

Пожалуйста, посетите страницу конфигураций ClickHouse Spark для дополнительных настроек.
При работе с ClickHouse Cloud убедитесь, что вы установили необходимые настройки Spark.
Проверка настройки
Чтобы убедиться, что зависимости и конфигурации были установлены успешно, перейдите в интерфейс Spark вашей сессии и перейдите на вкладку Environment
. Там найдите настройки, связанные с ClickHouse:
