メインコンテンツまでスキップ
メインコンテンツまでスキップ

REST カタログ

Experimental feature. Learn more.
注記

RESTカタログとの統合は、Icebergテーブルのみで動作します。 この統合は、AWS S3および他のクラウドストレージプロバイダーの両方をサポートしています。

ClickHouseは、複数のカタログ(Unity、Glue、REST、Polarisなど)との統合をサポートしています。このガイドでは、ClickHouseとRESTカタログ仕様を使用してデータをクエリする手順を説明します。

RESTカタログは、Icebergカタログのための標準化されたAPI仕様で、以下のようなさまざまなプラットフォームでサポートされています:

  • ローカル開発環境(docker-composeセットアップを使用)
  • 管理サービス(Tabular.ioなど)
  • セルフホスト型RESTカタログ実装
注記

この機能は実験的なため、次のコマンドで有効にする必要があります: SET allow_experimental_database_iceberg = 1;

ローカル開発セットアップ

ローカル開発とテストのために、コンテナ化されたRESTカタログのセットアップを使用できます。このアプローチは、学習、プロトタイピング、開発環境に最適です。

前提条件

  1. DockerとDocker Compose:Dockerがインストールされ、実行中であることを確認してください
  2. サンプルセットアップ:さまざまなdocker-composeセットアップを使用できます(下記の「代替Dockerイメージ」を参照)

ローカルRESTカタログのセットアップ

**Databricks docker-spark-iceberg**などのさまざまなコンテナ化されたRESTカタログ実装を利用できます。これにより、Spark + Iceberg + RESTカタログ環境がdocker-composeとともに提供され、Iceberg統合のテストに最適です。

ステップ1:例を実行するための新しいフォルダーを作成し、Databricks docker-spark-icebergからの設定でdocker-compose.ymlというファイルを作成します。

ステップ2:次に、docker-compose.override.ymlというファイルを作成し、以下のClickHouseコンテナ設定を追加します:

version: '3.8'

services:
  clickhouse:
    image: clickhouse/clickhouse-server:25.5.6
    container_name: clickhouse
    user: '0:0'  # Ensures root permissions
    ports:
      - "8123:8123"
      - "9002:9000"
    volumes:
      - ./clickhouse:/var/lib/clickhouse
      - ./clickhouse/data_import:/var/lib/clickhouse/data_import  # Mount dataset folder
    networks:
      - iceberg_net
    environment:
      - CLICKHOUSE_DB=default
      - CLICKHOUSE_USER=default
      - CLICKHOUSE_DO_NOT_CHOWN=1
      - CLICKHOUSE_PASSWORD=

ステップ3:サービスを起動するために次のコマンドを実行します:

docker compose up

ステップ4:すべてのサービスが準備完了するまで待ちます。ログをチェックできます:

docker-compose logs -f
注記

RESTカタログのセットアップには、最初にIcebergテーブルにサンプルデータをロードする必要があります。ClickHouseを通じてクエリを実行する前に、Spark環境がテーブルを作成およびポピュレーションしていることを確認してください。テーブルの利用可能性は、特定のdocker-composeセットアップおよびサンプルデータのロードスクリプトに依存します。

ローカルRESTカタログへの接続

ClickHouseコンテナに接続します:

docker exec -it clickhouse clickhouse-client

次に、RESTカタログへのデータベース接続を作成します:

SET allow_experimental_database_iceberg = 1;

CREATE DATABASE demo
ENGINE = DataLakeCatalog('http://rest:8181/v1', 'admin', 'password')
SETTINGS 
    catalog_type = 'rest', 
    storage_endpoint = 'http://minio:9000/lakehouse', 
    warehouse = 'demo'

ClickHouseを使用したRESTカタログテーブルのクエリ

接続が確立されたので、RESTカタログを介してクエリを開始できます。例えば:

USE demo;

SHOW TABLES;

サンプルデータ(タクシーデータセットなど)が含まれている場合、次のようなテーブルが表示されるはずです:

┌─name──────────┐
│ default.taxis │
└───────────────┘
注記

テーブルが表示されない場合、通常は以下の理由が考えられます:

  1. Spark環境がサンプルテーブルをまだ作成していない
  2. RESTカタログサービスが完全に初期化されていない
  3. サンプルデータのロードプロセスが完了していない

Sparkのログをチェックして、テーブル作成の進捗を確認できます:

docker-compose logs spark

テーブルをクエリするには(利用可能な場合):

SELECT count(*) FROM `default.taxis`;
┌─count()─┐
│ 2171187 │
└─────────┘
バックスラッシュが必要

ClickHouseは1つの名前空間以上をサポートしていないため、バックスラッシュが必要です。

テーブルDDLを確認するには:

SHOW CREATE TABLE `default.taxis`;
┌─statement─────────────────────────────────────────────────────────────────────────────────────┐
│ CREATE TABLE demo.`default.taxis`                                                             │
│ (                                                                                             │
│     `VendorID` Nullable(Int64),                                                               │
│     `tpep_pickup_datetime` Nullable(DateTime64(6)),                                           │
│     `tpep_dropoff_datetime` Nullable(DateTime64(6)),                                          │
│     `passenger_count` Nullable(Float64),                                                      │
│     `trip_distance` Nullable(Float64),                                                        │
│     `RatecodeID` Nullable(Float64),                                                           │
│     `store_and_fwd_flag` Nullable(String),                                                    │
│     `PULocationID` Nullable(Int64),                                                           │
│     `DOLocationID` Nullable(Int64),                                                           │
│     `payment_type` Nullable(Int64),                                                           │
│     `fare_amount` Nullable(Float64),                                                          │
│     `extra` Nullable(Float64),                                                                │
│     `mta_tax` Nullable(Float64),                                                              │
│     `tip_amount` Nullable(Float64),                                                           │
│     `tolls_amount` Nullable(Float64),                                                         │
│     `improvement_surcharge` Nullable(Float64),                                                │
│     `total_amount` Nullable(Float64),                                                         │
│     `congestion_surcharge` Nullable(Float64),                                                 │
│     `airport_fee` Nullable(Float64)                                                           │
│ )                                                                                             │
│ ENGINE = Iceberg('http://minio:9000/lakehouse/warehouse/default/taxis/', 'admin', '[HIDDEN]') │
└───────────────────────────────────────────────────────────────────────────────────────────────┘

データレイクからClickHouseへのデータのロード

RESTカタログからClickHouseにデータをロードする必要がある場合、まずローカルのClickHouseテーブルを作成します:

CREATE TABLE taxis
(
    `VendorID` Int64,
    `tpep_pickup_datetime` DateTime64(6),
    `tpep_dropoff_datetime` DateTime64(6),
    `passenger_count` Float64,
    `trip_distance` Float64,
    `RatecodeID` Float64,
    `store_and_fwd_flag` String,
    `PULocationID` Int64,
    `DOLocationID` Int64,
    `payment_type` Int64,
    `fare_amount` Float64,
    `extra` Float64,
    `mta_tax` Float64,
    `tip_amount` Float64,
    `tolls_amount` Float64,
    `improvement_surcharge` Float64,
    `total_amount` Float64,
    `congestion_surcharge` Float64,
    `airport_fee` Float64
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(tpep_pickup_datetime)
ORDER BY (VendorID, tpep_pickup_datetime, PULocationID, DOLocationID);

次に、INSERT INTO SELECTを介してRESTカタログテーブルからデータをロードします:

INSERT INTO taxis 
SELECT * FROM demo.`default.taxis`;