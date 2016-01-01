可观察性

现代软件系统非常复杂。微服务、云基础设施和分布式系统使得理解我们的应用程序内部发生了什么变得越来越困难。当出现问题时，团队需要快速知道问题在哪里，以及为什么会发生。

这就是可观察性发挥作用的地方。它已经从简单的系统监控演变为全面了解系统行为的方法。然而，实施有效的可观察性并不是简单的任务——这需要理解技术概念和组织挑战。

可观察性是通过检查系统的输出，了解其内部状态。在软件系统中，这意味着通过系统生成的数据，理解您的应用程序和基础设施内部发生了什么。

这一领域已经发生了显著变化，可以通过两代不同的可观察性方法来理解。

第一代，通常称为可观察性 1.0，是围绕传统的“三个支柱”方法（指标、日志和追踪）构建的。这种方法需要多个工具和数据存储来处理不同类型的遥测数据。它往往迫使工程师预先定义他们想要测量的内容，使得维护多个系统的成本高昂且复杂。

现代可观察性或可观察性 2.0，采取了根本不同的方法。它基于为我们系统中的每个工作单元（例如，HTTP 请求和响应）收集广泛的结构化事件。这种方法捕获高基数数据，例如用户 ID、请求 ID、Git 提交哈希、实例 ID、Kubernetes pod 名称、特定路由参数和供应商交易 ID。一个经验法则是，如果它可以帮助我们理解系统的行为，就添加一段元数据。

这种丰富的数据收集使得动态切分和处理数据成为可能，而无需预先定义指标。团队可以从基础数据中导出指标、追踪和其他可视化，使得他们能够回答关于系统行为的复杂问题，这些问题在首次添加仪表化时并未预见。

然而，实现现代可观察性功能存在挑战。组织需要可靠的方法来收集、处理和导出这种丰富的遥测数据，跨越不同的系统和技术。虽然现代方法已经超越了传统的界限，但理解可观察性的基本构建块仍然至关重要。

为了更好地理解可观察性如何演变及其在实践中的工作方式，让我们探讨可观察性的三个支柱——日志、指标和追踪。

虽然现代可观察性已不再将这些视作独立的关注点，但它们仍然是理解系统行为不同方面的基本概念。

日志 - 系统内发生的离散事件的基于文本的记录。这些提供了关于特定事件、错误和状态变化的详细上下文。 指标 - 随时间收集的数值测量。这些包括计数器、仪表和直方图，帮助跟踪系统性能、资源使用和业务 KPI。 追踪 - 跟踪请求在分布式系统中流动旅程的记录。这些有助于理解服务之间的关系并识别性能瓶颈。

这些支柱使团队能够监控、排除故障和优化他们的系统。然而，真正的力量来自于理解如何有效地收集、分析和关联三者之间的数据，以获得有意义的关于系统行为的见解。

虽然可观察性的技术方面——日志、指标和追踪——已得到很好的理解，但考虑到业务好处同样重要。

在他们的书籍 "Observability Engineering" （O'Reilly, 2022）中，Charity Majors、Liz Fong-Jones 和 George Miranda 结合行业研究和案例反馈，识别出组织可以期望从实施适当的可观察性实践中获得的四个关键业务好处。让我们一一探讨这些好处：

作者指出，帮助团队提高正常运行时间和性能的可观察性工具，可以通过改善代码质量来实现增量收入的增加。这体现在几个方面：

改善客户体验：快速的问题解决和防止服务降级，导致更高的客户满意度和保留率。 增加系统可靠性：更好的正常运行时间意味着更多成功的交易和更少的商业机会损失。 提高性能：识别和优化性能瓶颈的能力有助于维持响应迅速的服务，保持客户的参与度。 竞争优势：能够通过全面监控和快速解决问题来维持高服务质量的组织往往会在竞争中获得优势。

可观察性最直接的好处之一是通过更快检测和解决问题来降低劳动力成本。这体现在：

减少平均检测时间 (MTTD) 和平均解决时间 (MTTR)

改善查询响应时间，允许更快的调查

更快识别性能瓶颈

减少值班时间

减少因不必要的回滚而浪费的资源

我们在实践中看到了这一点——[trip.com 用 ClickHouse 建立了他们的可观察性系统](trip.com built their observability system with ClickHouse)，实现了比他们之前的解决方案快 4-30 倍的查询速度，90% 的查询在 300 毫秒以内完成，从而实现了快速问题调查。

可观察性不仅帮助更快解决问题——它还帮助完全防止这些问题。作者强调，团队可以通过以下方式防止关键问题：

在潜在问题变得关键之前识别它们

分析模式以防止重复问题

理解不同条件下的系统行为

主动解决性能瓶颈

基于数据做出关于系统改进的决策

ClickHouse 的自有可观察性平台 LogHouse 证实了这一点。它使我们的核心工程师能够搜索所有集群的历史模式，帮助防止重复问题。

最被忽视的好处之一是对团队满意度和留任率的影响。作者指出，可观察性会导致：

通过更好的工具改善工作满意度

由于较少未解决的问题而减少开发人员的倦怠

通过更好的信号与噪声比降低告警疲劳

由于更好的事件管理降低值班压力

团队对系统可靠性更有信心

我们在实践中看到了这一点——当Fastly 迁移到 ClickHouse时，他们的工程师惊讶于查询性能的提升，指出：

“我简直不敢相信。我实际上不得不回头几次，只是为了确保我正确地查询... 这是回来得太快了。 这没道理。”

正如作者所强调的，虽然这些好处的具体衡量标准可能因工具和实施而异，但可以期待这些基本改进会出现在采用强大可观察性实践的组织中。关键是有效选择和实施合适的工具，以最大化这些好处。

实现这些好处需要克服几个重大障碍。即使是了解可观察性价值的组织，往往也会发现实施带来了意想不到的复杂性和挑战，必须小心应对。

在组织中实施可观察性是迈向深入了解系统性能和可靠性的变革性步骤。然而，这一旅程并非没有挑战。随着组织努力发挥可观察性的全部潜力，他们会遇到各种障碍，这些障碍可能阻碍进展。让我们逐一看一下这些障碍。

实施可观察性的主要障碍之一是管理现代系统生成的庞大遥测数据的体量和可扩展性。随着组织的发展，他们需要监控的数据也在增加，这就需要能够高效处理大规模数据摄取和实时分析的解决方案。

与现有系统的集成是另一个重要的挑战。许多组织在异构环境中运营，拥有多样化的技术，这使得可观察性工具必须能够无缝集成到当前基础设施中。开放标准在促进这种集成方面至关重要，确保互操作性并降低在不同技术栈之间部署可观察性解决方案的复杂性。

技能差距也可能阻碍可观察性的成功实施。向先进的可观察解决方案转型通常需要对数据分析和特定工具的专业知识。团队可能需要投资于培训或招聘以弥补这些差距，充分利用他们的可观察性平台的能力。

成本管理至关重要，因为可观察性解决方案可能会变得昂贵，尤其是在规模较大的情况下。组织必须在这些工具的成本和它们提供的价值之间取得平衡，寻找相较于传统方法具有显著节省的成本效益解决方案。

数据保留和存储管理带来了额外的挑战。决定保留可观察性数据多长时间而不影响性能或洞察力需要仔细规划和高效的存储解决方案，这些解决方案能够在减少存储要求的同时保持数据的可访问性。

确保标准化并避免供应商锁定对于在可观察性解决方案中保持灵活性和适应性至关重要。通过遵循开放标准，组织可以防止被特定供应商束缚，并确保他们的可观察性堆栈能够随其需求而发展。

安全性和合规性考虑在处理可观察性系统中的敏感数据时仍然至关重要。组织必须确保其可观察性解决方案符合相关法规，并有效保护敏感信息。

这些挑战强调了在实施可观察性解决方案时，进行战略规划和明智决策的重要性，以有效满足组织需求。

为了解决这些挑战，组织需要制定一个结构良好的方法来实施可观察性。标准的可观察性管道已经发展成提供有效收集、处理和分析遥测数据的框架。这一演变的一些最早和最具影响力的例子来自 Twitter 在 2013 年的经验。