ClickPipes のデータソースを使用した PostgreSQL データの移行

ClickHouse Cloud では、外部の PostgreSQL データベースを Managed Postgres サービスに移行するための ClickPipes をご利用いただけるようになりました。この組み込みインテグレーションにより、ソースデータベースへの接続、スキーマのエクスポート、Managed Postgres へのインポート、継続的なレプリケーションの設定をスムーズに行えます。

前提条件

レプリケーション権限を持つユーザーで、ソース PostgreSQL データベースにアクセスできること。ソースに応じて、以下のセットアップガイドに従ってください。
- Amazon RDS Postgres
- Amazon Aurora Postgres
- Supabase Postgres
- Google Cloud SQL Postgres
- Azure Flexible Server for Postgres
- Neon Postgres
- Crunchy Bridge Postgres
- TimescaleDB
- その他のプロバイダーまたはセルフホストのインスタンスについては、Generic Postgres Source
移行先として ClickHouse Managed Postgres サービスが必要です。まだ用意していない場合は、クイックスタートを参照してください。
ローカルマシンに pg_dump と psql がインストールされていること。どちらも標準の PostgreSQL クライアントツールに含まれています。

移行前の注意事項

DDL の伝播: 継続的レプリケーション (CDC) は、DML 操作と ADD COLUMN を取り込みます。DROP COLUMN や ALTER COLUMN など、その他の DDL 変更は伝播されないため、ターゲット側で手動で適用する必要があります。

移行中に問題が発生した場合は、よくあるエラーとその解決策について Managed Postgres 移行のよくある質問を確認してください。

ソースデータベースに接続する

ClickHouse Cloud console を開き、Managed Postgres サービスを選択します。左側のサイドバーで、データソース をクリックします。Start import をクリックします。ソース PostgreSQL データベースの接続情報 (ホスト、ポート、ユーザー名、パスワード、データベース名) を入力します。ソース側で必要な場合は、TLS を有効にします。ソースデータベースへのプライベート接続が必要な場合は、SSH トンネリング を選択し、必要な SSH 情報を入力できます。これにより、公開されていないデータベースにも移行処理から安全に接続できます。インジェスト方法を選択します。

初期ロード + CDC (変更データキャプチャ) — 既存データをコピーした後、継続的な変更を反映してターゲットを同期し続けます。
初期ロード only — 一回限りのコピーで、継続的なレプリケーションは行いません。
CDC (変更データキャプチャ) only — 初期コピーをスキップし、この時点以降の新しい変更だけをレプリケートします。

Next をクリックします。

データベーススキーマをエクスポートする

ウィザードには、ソースへの接続情報があらかじめ入力された pg_dump コマンドが表示されます。これをターミナルで実行します。

pg_dump \
  -h <source_host> \
  -U <source_user> \
  -d <source_database> \
  --schema-only \
  -f pg.sql

これにより、pg.sql が現在のディレクトリに作成されます。Next をクリックします。

Managed Postgres サービスにスキーマをインポートする

ドロップダウンから宛先データベースを選択するか、Create a new database をクリックして新しく作成します。ウィザードには、スキーマダンプを Managed Postgres サービスに適用するための psql コマンドが表示されます。これをターミナルで実行します。

psql \
  -h <target_host> \
  -p 5432 \
  -U <target_user> \
  -d <target_database> \
  -f pg.sql

Next をクリックします。

インジェスト設定を構成する

論理レプリケーションに使用する publication を指定します。空欄のままにすると、publication が自動的に作成されます。Advanced replication settings を展開して、スループットを調整します。

Setting	Default	Description
同期間隔 (秒)	10	replication slot をポーリングする頻度
初期ロード用の並列スレッド数	4	一括コピーフェーズで使用するスレッド数
Pull バッチサイズ	100,000	レプリケーションの各バッチで取得する行数
スナップショット時のパーティションあたりの行数	100000	大きなテーブルのスナップショットにおけるパーティションサイズ
スナップショット時に並列に処理するテーブル数	1	同時にスナップショットを取得するテーブル数

Next をクリックします。

テーブルを選択する

レプリケートするテーブルを選択します。テーブルはスキーマごとにグループ化されています。個別のテーブルを選択することも、スキーマを展開してその配下をすべて選択することもできます。Create migration をクリックします。

移行を監視する

移行を作成すると、データソースにステータスが 実行中 として表示されます。移行をクリックすると、詳細ビューが開きます。テーブル タブには、処理済み行数、パーティション数、パーティションあたりの平均時間など、各テーブルの初期ロードの進行状況が表示されます。メトリクス タブには、CDC が開始されるとレプリケーションラグとスループットが表示されます。

移行後のタスク

初期ロードが完了し、CDC を使用している場合はレプリケーションラグがほぼゼロになったら、次の作業を行います。 行数を確認します。 トラフィックを切り替える前に、移行元と移行先の両方で重要なテーブルを抜き取りで確認してください。

SELECT COUNT(*) FROM public.orders;

移行元への書き込みを停止します。 アプリケーションからの書き込みを一時停止します。切り替え中に読み取り専用モードを強制するには:

ALTER DATABASE <source_db> SET default_transaction_read_only = on;

レプリケーションが追いついていることを確認します。 ソース側とターゲット側の最新行を比較します。

-- ソースとターゲットの両方で実行
SELECT MAX(id), MAX(updated_at) FROM public.orders;

シーケンスをリセットします。 各テーブルの現在の最大値に合わせて、シーケンスを調整します:

DO $$
DECLARE r RECORD;
BEGIN
    FOR r IN
        SELECT
            n.nspname AS schema_name,
            c.relname AS table_name,
            a.attname AS column_name,
            pg_get_serial_sequence(format('%I.%I', n.nspname, c.relname), a.attname) AS seq_name
        FROM pg_class c
        JOIN pg_namespace n ON n.oid = c.relnamespace
        JOIN pg_attribute a ON a.attrelid = c.oid
        WHERE c.relkind = 'r'
            AND a.attnum > 0
            AND NOT a.attisdropped
            AND n.nspname NOT IN ('pg_catalog', 'information_schema')
    LOOP
        IF r.seq_name IS NOT NULL THEN
            EXECUTE format(
                'SELECT setval(%L, COALESCE((SELECT MAX(%I) FROM %I.%I), 0) + 1, false)',
                r.seq_name, r.column_name, r.schema_name, r.table_name
            );
        END IF;
    END LOOP;
END $$;

アプリケーショントラフィックを切り替えます。 読み取り先と書き込み先を Managed Postgres サービスに切り替え、エラー、制約違反、レプリケーションの健全性を監視します。 クリーンアップ。 切り替え後、新しいサービスが正常に稼働していることを確認したら、データソース から移行を削除します。CDC を使用した場合は、リソースを解放するために移行元からレプリケーションスロットを削除します:

SELECT pg_drop_replication_slot('<slot_name>');

はじめに

機能

ベンチマーク

料金

ClickHouse Integration

移行

監視

よくある質問

ClickPipes のデータソースを使用した PostgreSQL データの移行

前提条件

移行前の注意事項

移行を監視する

移行後のタスク

次のステップ

​前提条件

​移行前の注意事項

​移行を監視する

​移行後のタスク

​次のステップ

前提条件

移行前の注意事項

移行を監視する

移行後のタスク

次のステップ