注記
RESTカタログとの統合は、Icebergテーブルのみで動作します。
この統合は、AWS S3および他のクラウドストレージプロバイダーの両方をサポートしています。
ClickHouseは、複数のカタログ(Unity、Glue、REST、Polarisなど)との統合をサポートしています。このガイドでは、ClickHouseとRESTカタログ仕様を使用してデータをクエリする手順を説明します。
RESTカタログは、Icebergカタログのための標準化されたAPI仕様で、以下のようなさまざまなプラットフォームでサポートされています:
- ローカル開発環境(docker-composeセットアップを使用)
- 管理サービス(Tabular.ioなど)
- セルフホスト型RESTカタログ実装
注記
この機能は実験的なため、次のコマンドで有効にする必要があります:
SET allow_experimental_database_iceberg = 1;
ローカル開発セットアップ
ローカル開発とテストのために、コンテナ化されたRESTカタログのセットアップを使用できます。このアプローチは、学習、プロトタイピング、開発環境に最適です。
前提条件
- DockerとDocker Compose:Dockerがインストールされ、実行中であることを確認してください
- サンプルセットアップ:さまざまなdocker-composeセットアップを使用できます(下記の「代替Dockerイメージ」を参照)
ローカルRESTカタログのセットアップ
**Databricks docker-spark-iceberg**などのさまざまなコンテナ化されたRESTカタログ実装を利用できます。これにより、Spark + Iceberg + RESTカタログ環境がdocker-composeとともに提供され、Iceberg統合のテストに最適です。
ステップ1:例を実行するための新しいフォルダーを作成し、Databricks docker-spark-icebergからの設定でdocker-compose.ymlというファイルを作成します。
ステップ2:次に、docker-compose.override.ymlというファイルを作成し、以下のClickHouseコンテナ設定を追加します:
version: '3.8'
services:
clickhouse:
image: clickhouse/clickhouse-server:25.5.6
container_name: clickhouse
user: '0:0' # Ensures root permissions
ports:
- "8123:8123"
- "9002:9000"
volumes:
- ./clickhouse:/var/lib/clickhouse
- ./clickhouse/data_import:/var/lib/clickhouse/data_import # Mount dataset folder
networks:
- iceberg_net
environment:
- CLICKHOUSE_DB=default
- CLICKHOUSE_USER=default
- CLICKHOUSE_DO_NOT_CHOWN=1
- CLICKHOUSE_PASSWORD=
ステップ3:サービスを起動するために次のコマンドを実行します:
ステップ4:すべてのサービスが準備完了するまで待ちます。ログをチェックできます:
注記
RESTカタログのセットアップには、最初にIcebergテーブルにサンプルデータをロードする必要があります。ClickHouseを通じてクエリを実行する前に、Spark環境がテーブルを作成およびポピュレーションしていることを確認してください。テーブルの利用可能性は、特定のdocker-composeセットアップおよびサンプルデータのロードスクリプトに依存します。
ローカルRESTカタログへの接続
ClickHouseコンテナに接続します:
docker exec -it clickhouse clickhouse-client
次に、RESTカタログへのデータベース接続を作成します:
SET allow_experimental_database_iceberg = 1;
CREATE DATABASE demo
ENGINE = DataLakeCatalog('http://rest:8181/v1', 'admin', 'password')
SETTINGS
catalog_type = 'rest',
storage_endpoint = 'http://minio:9000/lakehouse',
warehouse = 'demo'
ClickHouseを使用したRESTカタログテーブルのクエリ
接続が確立されたので、RESTカタログを介してクエリを開始できます。例えば:
サンプルデータ(タクシーデータセットなど)が含まれている場合、次のようなテーブルが表示されるはずです:
┌─name──────────┐
│ default.taxis │
└───────────────┘
注記
テーブルが表示されない場合、通常は以下の理由が考えられます:
- Spark環境がサンプルテーブルをまだ作成していない
- RESTカタログサービスが完全に初期化されていない
- サンプルデータのロードプロセスが完了していない
Sparkのログをチェックして、テーブル作成の進捗を確認できます:
docker-compose logs spark
テーブルをクエリするには(利用可能な場合):
SELECT count(*) FROM `default.taxis`;
┌─count()─┐
│ 2171187 │
└─────────┘
バックスラッシュが必要
ClickHouseは1つの名前空間以上をサポートしていないため、バックスラッシュが必要です。
テーブルDDLを確認するには:
SHOW CREATE TABLE `default.taxis`;
┌─statement─────────────────────────────────────────────────────────────────────────────────────┐
│ CREATE TABLE demo.`default.taxis` │
│ ( │
│ `VendorID` Nullable(Int64), │
│ `tpep_pickup_datetime` Nullable(DateTime64(6)), │
│ `tpep_dropoff_datetime` Nullable(DateTime64(6)), │
│ `passenger_count` Nullable(Float64), │
│ `trip_distance` Nullable(Float64), │
│ `RatecodeID` Nullable(Float64), │
│ `store_and_fwd_flag` Nullable(String), │
│ `PULocationID` Nullable(Int64), │
│ `DOLocationID` Nullable(Int64), │
│ `payment_type` Nullable(Int64), │
│ `fare_amount` Nullable(Float64), │
│ `extra` Nullable(Float64), │
│ `mta_tax` Nullable(Float64), │
│ `tip_amount` Nullable(Float64), │
│ `tolls_amount` Nullable(Float64), │
│ `improvement_surcharge` Nullable(Float64), │
│ `total_amount` Nullable(Float64), │
│ `congestion_surcharge` Nullable(Float64), │
│ `airport_fee` Nullable(Float64) │
│ ) │
│ ENGINE = Iceberg('http://minio:9000/lakehouse/warehouse/default/taxis/', 'admin', '[HIDDEN]') │
└───────────────────────────────────────────────────────────────────────────────────────────────┘
データレイクからClickHouseへのデータのロード
RESTカタログからClickHouseにデータをロードする必要がある場合、まずローカルのClickHouseテーブルを作成します:
CREATE TABLE taxis
(
`VendorID` Int64,
`tpep_pickup_datetime` DateTime64(6),
`tpep_dropoff_datetime` DateTime64(6),
`passenger_count` Float64,
`trip_distance` Float64,
`RatecodeID` Float64,
`store_and_fwd_flag` String,
`PULocationID` Int64,
`DOLocationID` Int64,
`payment_type` Int64,
`fare_amount` Float64,
`extra` Float64,
`mta_tax` Float64,
`tip_amount` Float64,
`tolls_amount` Float64,
`improvement_surcharge` Float64,
`total_amount` Float64,
`congestion_surcharge` Float64,
`airport_fee` Float64
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(tpep_pickup_datetime)
ORDER BY (VendorID, tpep_pickup_datetime, PULocationID, DOLocationID);
次に、INSERT INTO SELECTを介してRESTカタログテーブルからデータをロードします:
INSERT INTO taxis
SELECT * FROM demo.`default.taxis`;