Google Dataflow と ClickHouse の連携 - ClickHouse Documentation

Google Dataflow は、完全マネージド型のストリーム処理およびバッチデータ処理サービスです。Java または Python で記述されたパイプラインをサポートし、Apache Beam SDK をベースに構築されています。 Google Dataflow を ClickHouse と組み合わせて使用する主な方法は 2 つあり、どちらも ClickHouseIO Apache Beam connector を利用します。以下の 2 つです。

Java ランナー
事前定義済みテンプレート

Java ランナー

Java ランナーを使用すると、Apache Beam SDK の ClickHouseIO インテグレーションを使って、カスタムの Dataflow パイプラインを実装できます。この方法ではパイプラインのロジックを全面的に柔軟かつ細かく制御できるため、特定の要件に合わせて ETL プロセスを調整できます。ただし、このオプションを利用するには、Java プログラミングの知識と Apache Beam フレームワークへの習熟が必要です。

主な特長

カスタマイズ性が高い。
複雑なユースケースや高度なユースケースに適しています。
コーディングと Beam API の理解が必要です。

事前定義済みテンプレート

ClickHouse は、BigQuery からのバッチインポートや、Pub/Sub から ClickHouse へのストリーミングインジェストなど、特定のユースケース向けに設計された事前定義済みテンプレートを提供しています。これらのテンプレートはすぐに利用でき、インテグレーションのプロセスを簡素化できるため、ノーコードのソリューションを求める場合に適した選択肢です。

主な機能

Beam のコードを書く必要はありません。
シンプルなユースケースなら、すばやく簡単にセットアップできます。
プログラミングの経験がほとんどなくても利用できます。

どちらのアプローチも Google Cloud と ClickHouse エコシステムに完全対応しており、技術的な専門知識やプロジェクト要件に応じて柔軟に選択できます。

​Java ランナー

​主な特長

​事前定義済みテンプレート

​主な機能

Java ランナー

主な特長

事前定義済みテンプレート

主な機能