Перейти к основному содержимому
Перейти к основному содержимому

Интеграция Azure Synapse с ClickHouse

Azure Synapse — это интегрированный аналитический сервис, который объединяет большие данные, науку о данных и хранилища для обеспечения быстрого и масштабного анализа данных. В Synapse кластеры Spark предоставляют по запросу масштабируемые Apache Spark кластеры, позволяя пользователям выполнять сложные преобразования данных, машинное обучение и интеграцию с внешними системами.

В этой статье мы покажем, как интегрировать коннектор ClickHouse Spark при работе с Apache Spark в Azure Synapse.

Добавление зависимостей коннектора

Azure Synapse поддерживает три уровня обслуживания пакетов:

  1. Пакеты по умолчанию
  2. Уровень пула Spark
  3. Уровень сессии

Следуйте руководству по управлению библиотеками для Apache Spark pools и добавьте следующие необходимые зависимости в ваше Spark приложение:

Пожалуйста, посетите нашу матрицу совместимости коннектора Spark, чтобы понять, какие версии соответствуют вашим требованиям.

Добавление ClickHouse в качестве каталога

Существует несколько способов добавить конфигурации Spark в вашу сессию:

  • Пользовательский файл конфигурации для загрузки с вашей сессией
  • Добавление конфигураций через интерфейс Azure Synapse
  • Добавление конфигураций в вашем блокноте Synapse

Следуйте управлению конфигурацией Apache Spark и добавьте необходимые Spark конфигурации коннектора.

Например, вы можете настроить вашу Spark сессию в вашем блокноте с помощью следующих настроек:

Убедитесь, что это будет в первой ячейке следующим образом:

Пожалуйста, посетите страницу конфигураций ClickHouse Spark для дополнительных настроек.

к сведению

При работе с ClickHouse Cloud убедитесь, что вы установили необходимые настройки Spark.

Проверка настройки

Чтобы убедиться, что зависимости и конфигурации были установлены успешно, перейдите в интерфейс Spark вашей сессии и перейдите на вкладку Environment. Там найдите настройки, связанные с ClickHouse:

Дополнительные ресурсы