メインコンテンツへスキップ
メインコンテンツへスキップ

Apache Spark と ClickHouse の統合

ClickHouse Supported

Apache Spark は、単一ノード環境またはクラスター上でデータエンジニアリング、データサイエンス、機械学習を実行するためのマルチ言語エンジンです。

Apache Spark と ClickHouse を接続する主な方法は 2 つあります。

  1. Spark Connector - Spark connector は DataSourceV2 を実装し、独自の catalog 管理を行います。現時点では、ClickHouse と Spark を統合するための推奨手段です。
  2. Spark JDBC - JDBC データソース を使用して Spark と ClickHouse を統合します。

いずれの方式も検証済みであり、Java、Scala、PySpark、Spark SQL を含むさまざまな API と完全に互換性があります。

Spark ランタイム環境

標準 Spark ランタイム

Spark Connector は、Amazon EMR や Kubernetes ベースの Spark デプロイメントなど、アップストリームの Apache Spark ランタイムに忠実な環境であれば、そのまま動作します。

マネージド Spark プラットフォーム

AWS GlueDatabricks などのプラットフォームは、追加の抽象化や環境固有の動作を導入します。 コアとなる連携方法は同じですが、専用の設定やセットアップ手順が必要となる場合があります。詳細は、それぞれのドキュメントページを参照してください。