Azure Synapse と ClickHouse の統合
Azure Synapse は、ビッグデータ、データサイエンス、データウェアハウジングを組み合わせ、迅速で大規模なデータ分析を可能にする統合分析サービスです。 Synapse 内では、Spark プールがオンデマンドでスケーラブルな Apache Spark クラスターを提供し、ユーザーが複雑なデータ変換、機械学習、および外部システムとの統合を実行できます。
この記事では、Azure Synapse 内で Apache Spark を使用する際に ClickHouse Spark コネクタ を統合する方法を示します。
コネクタの依存関係を追加する
Azure Synapse では、パッケージ管理の3つのレベルをサポートしています:
- デフォルトパッケージ
- Spark プールレベル
- セッションレベル
Apache Spark プールのライブラリ管理ガイドに従い、Spark アプリケーションに以下の必要な依存関係を追加してください。
clickhouse-spark-runtime-{spark_version}_{scala_version}-{connector_version}.jar
- 公式 mavenclickhouse-jdbc-{java_client_version}-all.jar
- 公式 maven
どのバージョンがニーズに合っているかを理解するために、Spark コネクタの互換性マトリクス のドキュメントをご覧ください。
ClickHouse をカタログとして追加する
Spark の設定をセッションに追加するには、様々な方法があります:
- セッションと共にロードするカスタム設定ファイル
- Azure Synapse UI を介して設定を追加
- Synapse ノートブック内で設定を追加
Apache Spark 設定管理ガイドに従い、コネクタに必要な Spark 設定を追加してください。
例えば、以下の設定でノートブック内の Spark セッションを構成できます:
最初のセルにこの設定を配置してください:

追加の設定については、ClickHouse Spark 設定ページをご覧ください。
ClickHouse Cloud を使用する場合は、必要な Spark 設定を設定してください。
セットアップの検証
依存関係と設定が正しく設定されているかを検証するために、セッションの Spark UI を訪れ、「環境」タブに移動してください。 そこで、ClickHouse に関連する設定を探してください:
