监控 ClickHouse Cloud 部署
概述
本指南为企业团队介绍 ClickHouse Cloud 生产环境部署中的监控与可观测性能力。企业客户经常会询问开箱即用的监控功能、如何与现有可观测性技术栈 (包括 Datadog 和 AWS CloudWatch 等工具) 集成,以及 ClickHouse 的监控能力与自托管部署相比有何差异。
用户可通过以下方式监控其 ClickHouse 部署:
| 章节 | 描述 | 会唤醒空闲服务吗? | 所需配置 |
|---|---|---|---|
| Cloud 控制台仪表板 | 使用内置仪表板对服务健康状况、资源利用率和查询性能进行日常监控 | 否 | 无 |
| 通知 | 针对扩缩容事件、错误、变更和计费的告警 | 否 | 无 (可自定义) |
| Prometheus endpoint | 将指标导出到 Grafana、Datadog 或其他兼容 Prometheus 的工具 | 否 | API 密钥 + scraper config |
| 系统表查询 | 通过直接查询 system 表进行深度调试和自定义分析 | 是 | SQL 查询 |
| 社区和合作伙伴集成 | Datadog agent 集成、社区监控工具以及 Billing & Usage API | 视情况而定 | 取决于具体工具 |
| 高级仪表板参考 | 针对各个高级仪表板可视化的详细参考说明,包括故障排查示例 | 否 | 无 |
快速开始
打开 ClickHouse Cloud 控制台,进入 监控 选项卡。这篇博客总结了入门时常见的注意事项。
对于大多数用户,Cloud 控制台仪表板 无需任何配置,即可满足监控服务健康状况、资源利用率和查询性能的全部需求。如果您需要与外部监控栈集成,请先从 Prometheus-compatible metrics endpoint 开始。
系统影响考量
上述方法结合了以下几种方式:依赖 Prometheus 端点、由 ClickHouse Cloud 托管,或直接查询系统表。其中最后一种方式依赖于查询生产 ClickHouse 服务,这会给被观测系统增加查询负载,并阻止 ClickHouse Cloud 实例进入闲置状态,从而可能影响成本。此外,如果生产系统发生故障,监控也可能受到影响,因为两者是耦合的。
直接查询系统表非常适合做深度分析和调试,但不太适合实时生产监控。Cloud Console dashboards 和 Prometheus endpoint 都使用预先抓取的指标,不会唤醒闲置服务,因此更适合持续性的生产监控。请权衡详细系统分析能力与运维开销之间的取舍。