メインコンテンツまでスキップ
メインコンテンツまでスキップ

Apache SparkとClickHouseの統合


Apache Spark は、データエンジニアリング、データサイエンス、機械学習を単一ノードのマシンまたはクラスターで実行するためのマルチランゲージエンジンです。

Apache SparkとClickHouseを接続する主な方法は2つあります:

  1. Spark Connector - SparkコネクタはDataSourceV2を実装しており、独自のカタログ管理を持っています。現在、これがClickHouseとSparkを統合するための推奨方法です。
  2. Spark JDBC - JDBCデータソースを使用してSparkとClickHouseを統合します。


両方のソリューションは成功裏にテストされており、Java、Scala、PySpark、Spark SQLを含むさまざまなAPIと完全に互換性があります。