ClickHouse Cloud デプロイメントのモニタリング
概要
このガイドでは、ClickHouse Cloud の本番デプロイメントにおけるモニタリング機能とオブザーバビリティ機能について、エンタープライズチーム向けに説明します。エンタープライズ顧客からは、標準で利用できるモニタリング機能、Datadog や AWS CloudWatch などを含む既存のオブザーバビリティスタックとの連携、さらに ClickHouse のモニタリングがセルフホスト型デプロイメントと比べてどう違うのかについて、よく質問が寄せられます。
ユーザーは、次の方法で ClickHouse デプロイメントを監視できます。
| セクション | 説明 | アイドル状態のサービスを起動するか | 必要なセットアップ |
|---|---|---|---|
| Cloud コンソールのダッシュボード | サービスの健全性、リソース使用率、クエリパフォーマンスを確認するための組み込みダッシュボードによる日常的なモニタリング | いいえ | なし |
| 通知 | スケーリングイベント、エラー、ミューテーション、請求に関するアラート | いいえ | なし (カスタマイズ可能) |
| Prometheus エンドポイント | メトリクスを Grafana、Datadog、またはその他の Prometheus 互換ツールにエクスポート | いいえ | API key + スクレイパーの設定 |
| システムテーブルのクエリ | system テーブルに対する直接の SQL クエリによる詳細なデバッグとカスタム分析 | はい | SQL クエリ |
| コミュニティおよびパートナー連携 | Datadog agent との連携、コミュニティのモニタリングツール、Billing & Usage API | 場合による | ツール固有 |
| 高度なダッシュボードのリファレンス | トラブルシューティングの例を含む、各高度なダッシュボードのビジュアライゼーションに関する詳細なリファレンス | いいえ | なし |
クイックスタート
ClickHouse Cloud コンソールを開き、モニタリングタブに移動します。このブログでは、利用開始時に注意すべき一般的なポイントを紹介しています。
ほとんどのユーザーにとって、Cloud コンソールのダッシュボードには、設定なしでサービスの健全性、リソース使用率、クエリのパフォーマンスをモニタリングするために必要な機能がすべて揃っています。外部のモニタリングスタックと連携する必要がある場合は、Prometheus互換のメトリクスエンドポイントから始めてください。
システムへの影響に関する考慮事項
上記のアプローチでは、Prometheus エンドポイントを利用する方法、ClickHouse Cloud によって管理される方法、またはシステムテーブルを直接クエリする方法を組み合わせて使用します。これらのうち最後の方法は、本番環境の ClickHouse サービスをクエリすることに依存しているため、監視対象のシステムにクエリ負荷を追加し、ClickHouse Cloud インスタンスがアイドル状態に入るのを妨げ、コストに影響する可能性があります。さらに、本番システムで障害が発生すると、両者が密結合しているため、モニタリングにも影響が及ぶ可能性があります。
システムテーブルを直接クエリする方法は、詳細な内部分析やデバッグには有効ですが、リアルタイムの本番モニタリングにはあまり適していません。Cloud コンソールのダッシュボードとPrometheus エンドポイントはいずれも、アイドル状態のサービスを起動しない、あらかじめ収集されたメトリクスを使用するため、継続的な本番モニタリングにより適しています。詳細なシステム分析機能と運用オーバーヘッドの間にある、これらのトレードオフを考慮してください。