ClickHouse Cloud デプロイメントのモニタリング

概要

このガイドでは、ClickHouse Cloud の本番デプロイメントにおけるモニタリング機能とオブザーバビリティ機能について、エンタープライズチーム向けに説明します。エンタープライズ顧客からは、標準で利用できるモニタリング機能、Datadog や AWS CloudWatch などを含む既存のオブザーバビリティスタックとの連携、さらに ClickHouse のモニタリングがセルフホスト型デプロイメントと比べてどう違うのかについて、よく質問が寄せられます。

ユーザーは、次の方法で ClickHouse デプロイメントを監視できます。

セクション	説明	アイドル状態のサービスを起動するか	必要なセットアップ
Cloud コンソールのダッシュボード	サービスの健全性、リソース使用率、クエリパフォーマンスを確認するための組み込みダッシュボードによる日常的なモニタリング	いいえ	なし
通知	スケーリングイベント、エラー、ミューテーション、請求に関するアラート	いいえ	なし (カスタマイズ可能)
Prometheus エンドポイント	メトリクスを Grafana、Datadog、またはその他の Prometheus 互換ツールにエクスポート	いいえ	API key + スクレイパーの設定
システムテーブルのクエリ	`system` テーブルに対する直接の SQL クエリによる詳細なデバッグとカスタム分析	はい	SQL クエリ
コミュニティおよびパートナー連携	Datadog agent との連携、コミュニティのモニタリングツール、Billing & Usage API	場合による	ツール固有
高度なダッシュボードのリファレンス	トラブルシューティングの例を含む、各高度なダッシュボードのビジュアライゼーションに関する詳細なリファレンス	いいえ	なし

クイックスタート

ClickHouse Cloud コンソールを開き、モニタリングタブに移動します。このブログでは、利用開始時に注意すべき一般的なポイントを紹介しています。

ほとんどのユーザーにとって、Cloud コンソールのダッシュボードには、設定なしでサービスの健全性、リソース使用率、クエリのパフォーマンスをモニタリングするために必要な機能がすべて揃っています。外部のモニタリングスタックと連携する必要がある場合は、Prometheus互換のメトリクスエンドポイントから始めてください。

システムへの影響に関する考慮事項

上記のアプローチでは、Prometheus エンドポイントを利用する方法、ClickHouse Cloud によって管理される方法、またはシステムテーブルを直接クエリする方法を組み合わせて使用します。これらのうち最後の方法は、本番環境の ClickHouse サービスをクエリすることに依存しているため、監視対象のシステムにクエリ負荷を追加し、ClickHouse Cloud インスタンスがアイドル状態に入るのを妨げ、コストに影響する可能性があります。さらに、本番システムで障害が発生すると、両者が密結合しているため、モニタリングにも影響が及ぶ可能性があります。

システムテーブルを直接クエリする方法は、詳細な内部分析やデバッグには有効ですが、リアルタイムの本番モニタリングにはあまり適していません。Cloud コンソールのダッシュボードとPrometheus エンドポイントはいずれも、アイドル状態のサービスを起動しない、あらかじめ収集されたメトリクスを使用するため、継続的な本番モニタリングにより適しています。詳細なシステム分析機能と運用オーバーヘッドの間にある、これらのトレードオフを考慮してください。

概要​

クイックスタート​

システムへの影響に関する考慮事項​

概要

クイックスタート

システムへの影響に関する考慮事項