Перейти к основному содержимому
Перейти к основному содержимому

Интеграция Apache Spark с ClickHouse


Apache Spark — это многозадачный движок для выполнения инженерии данных, научных исследований и машинного обучения на одноузловых машинах или кластерах.

Существует два основных способа подключения Apache Spark и ClickHouse:

  1. Spark Connector - Коннектор Spark реализует DataSourceV2 и имеет свою собственную систему управления каталогами. На сегодняшний день это рекомендуемый способ интеграции ClickHouse и Spark.
  2. Spark JDBC - Интеграция Spark и ClickHouse с использованием JDBC data source.


Обе решения были успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.