メインコンテンツまでスキップ
メインコンテンツまでスキップ

Azure Synapse と ClickHouse の統合

Azure Synapse は、ビッグデータ、データサイエンス、データウェアハウジングを組み合わせ、迅速で大規模なデータ分析を可能にする統合分析サービスです。 Synapse 内では、Spark プールがオンデマンドでスケーラブルな Apache Spark クラスターを提供し、ユーザーが複雑なデータ変換、機械学習、および外部システムとの統合を実行できます。

この記事では、Azure Synapse 内で Apache Spark を使用する際に ClickHouse Spark コネクタ を統合する方法を示します。

コネクタの依存関係を追加する

Azure Synapse では、パッケージ管理の3つのレベルをサポートしています:

  1. デフォルトパッケージ
  2. Spark プールレベル
  3. セッションレベル

Apache Spark プールのライブラリ管理ガイドに従い、Spark アプリケーションに以下の必要な依存関係を追加してください。

  • clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar - 公式 maven
  • clickhouse-jdbc-{java_client_version}-all.jar - 公式 maven

どのバージョンがニーズに合っているかを理解するために、Spark コネクタの互換性マトリクス のドキュメントをご覧ください。

ClickHouse をカタログとして追加する

Spark の設定をセッションに追加するには、様々な方法があります:

  • セッションと共にロードするカスタム設定ファイル
  • Azure Synapse UI を介して設定を追加
  • Synapse ノートブック内で設定を追加

Apache Spark 設定管理ガイドに従い、コネクタに必要な Spark 設定を追加してください。

例えば、以下の設定でノートブック内の Spark セッションを構成できます:

最初のセルにこの設定を配置してください:

追加の設定については、ClickHouse Spark 設定ページをご覧ください。

参考

ClickHouse Cloud を使用する場合は、必要な Spark 設定を設定してください。

セットアップの検証

依存関係と設定が正しく設定されているかを検証するために、セッションの Spark UI を訪れ、「環境」タブに移動してください。 そこで、ClickHouse に関連する設定を探してください:

追加リソース