Интеграция Apache Spark с ClickHouse

Apache Spark — это многоязычный движок для выполнения задач data engineering, data science и машинного обучения на односерверных системах или в кластерах. Существует два основных способа интеграции Apache Spark с ClickHouse:

Коннектор Spark — Spark-коннектор реализует DataSourceV2 и самостоятельно управляет каталогом. На сегодняшний день это рекомендуемый способ интеграции ClickHouse и Spark.
Spark JDBC — интегрируйте Spark и ClickHouse с помощью источника данных JDBC.

Оба решения успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.

Среды выполнения Spark

Стандартные среды выполнения Spark

Коннектор Spark работает без дополнительной настройки в средах, близких к стандартной среде выполнения Apache Spark, например в Amazon EMR или в развертываниях Spark на базе Kubernetes.

Управляемые платформы Spark

Такие платформы, как AWS Glue и Databricks, добавляют дополнительные абстракции и особенности, зависящие от конкретной среды. Хотя сама интеграция остаётся той же, для этих платформ могут потребоваться отдельные шаги по конфигурации и настройке. Подробности см. на соответствующих страницах документации.

​Среды выполнения Spark

​Стандартные среды выполнения Spark

​Управляемые платформы Spark

Среды выполнения Spark

Стандартные среды выполнения Spark

Управляемые платформы Spark