Мониторинг

Современные программные системы сложны. Микросервисы, облачная инфраструктура и распределенные системы сделали все более трудным понимание того, что происходит внутри наших приложений. Когда что-то идет не так, командам нужно быстро узнать, где и почему это произошло.

Здесь и приходит на помощь наблюдаемость. Она эволюционировала от простого мониторинга системы к комплексному подходу к пониманию поведения системы. Однако реализация эффективной наблюдаемости не является простой задачей — это требует понимания технических концепций и организационных вызовов.

Наблюдаемость — это понимание внутреннего состояния системы путем изучения её выходных данных. В программных системах это означает понимание того, что происходит внутри ваших приложений и инфраструктуры на основе данных, которые они генерируют.

Эта область значительно эволюционировала и может быть понята через две разные генерации подходов к наблюдаемости.

Первая генерация, часто называемая Наблюдаемостью 1.0, была построена вокруг традиционного подхода "трех столпов" — метрик, логов и трассировок. Этот подход требовал множества инструментов и хранилищ данных для различных типов телеметрии. Это часто заставляло инженеров заранее определять, что они хотят измерять, что делало поддержку множества систем дорогой и сложной.

Современная наблюдаемость, или Наблюдаемость 2.0, имеет совершенно другой подход. Он основан на сборе широких, структурированных событий для каждого рабочего процесса (например, HTTP запроса и ответа) в нашей системе. Этот подход захватывает данные с высокой кардинальностью, такие как ID пользователей, ID запросов, хэши коммитов Git, ID инстансов, названия Pods Kubernetes, конкретные параметры маршрута и ID транзакций поставщиков. Правило для добавления метаданных — добавлять их, если они могут помочь нам понять, как ведет себя система.

Этот богатый сбор данных позволяет динамически нарезать и обрабатывать данные без предварительного определения метрик. Команды могут выводить метрики, трассировки и другие визуализации из этих базовых данных, что позволяет им отвечать на сложные вопросы о поведении системы, которые не были предсказаны, когда сначала была добавлена инструментировка.

Тем не менее, реализация современных возможностей наблюдаемости представляет свои вызовы. Организациям нужны надежные способы сбора, обработки и экспорта этих богатых телеметрических данных через различные системы и технологии. Хотя современные подходы эволюционировали за пределы традиционных границ, понимание основных строительных блоков наблюдаемости остается ключевым.

Чтобы лучше понять, как наблюдаемость эволюционировала и работает на практике, давайте рассмотрим три столпа наблюдаемости — логи, метрики и трассировки.

Хотя современная наблюдаемость ушла от рассмотрения этих аспектов как отдельных, они остаются основополагающими концепциями для понимания различных аспектов поведения системы.

Логи — текстовые записи дискретных событий, происходящих в системе. Они предоставляют детальный контекст о конкретных происшествиях, ошибках и изменениях состояния. Метрики — числовые измерения, собранные со временем. Они включают счетчики, измерительные приборы и гистограммы, которые помогают отслеживать производительность системы, использование ресурсов и бизнес-KPI. Трассировки — записи, которые отслеживают путь запросов по распределённым системам. Они помогают понять взаимосвязи между сервисами и выявить узкие места в производительности.

Эти столпы позволяют командам осуществлять мониторинг, устранять неполадки и оптимизировать свои системы. Однако истинная мощь заключается в том, как эффективно собирать, анализировать и сопоставлять данные по всем трем столпам, чтобы получить значимые инсайты о поведении системы.

Несмотря на то, что технические аспекты наблюдаемости — логи, метрики и трассировки — хорошо известны, бизнес-преимущества также важны для учета.

В своей книге "Инженерия наблюдаемости" (O'Reilly, 2022) Чарити Мейджорс, Лиз Фонг-Джонс и Джордж Миранда опираются на отраслевые исследования и анекдотические отзывы, чтобы выделить четыре ключевых бизнес-преимущества, которые организации могут ожидать от внедрения правильных практик наблюдаемости. Давайте рассмотрим эти преимущества:

Авторы отмечают, что инструменты наблюдаемости, которые помогают командам улучшить время безотказной работы и производительность, могут привести к увеличению дополнительных доходов за счет улучшения качества кода. Это проявляется несколькими способами:

Улучшенный опыт клиентов: Быстрое решение проблем и предотвращение деградации сервиса приводят к более высокой удовлетворенности и удержанию клиентов. Повышенная надежность системы: Лучшее время безотказной работы означает больше успешных транзакций и меньше упущенных бизнес-возможностей. Улучшенная производительность: Возможность выявления и оптимизации узких мест в производительности помогает поддерживать актуальные сервисы, которые удерживают клиентов. Конкурентное преимущество: Организации, которые могут поддерживать высокое качество обслуживания через комплексный мониторинг и быстрое решение проблем, часто получают преимущество над конкурентами.

Одним из самых непосредственных преимуществ наблюдаемости является снижение затрат на рабочую силу за счет более быстрого обнаружения и решения проблем. Это связано с:

Снижением среднего времени обнаружения (MTTD) и среднего времени решения (MTTR)

Улучшением времени ответа на запросы, что позволяет быстрее проводить расследования

Быстрым выявлением узких мест в производительности

Уменьшением времени, проведенного в режиме ожидания

Меньшим количеством ресурсов, потраченных на ненужные откаты

Мы видим это на практике — [trip.com построил свою систему наблюдаемости на ClickHouse](trip.com built their observability system with ClickHouse) и достиг скорости запросов 4-30 раз быстрее, чем в их предыдущем решении, с 90% запросов, завершающихся за менее чем 300 мс, что позволило быстро расследовать проблемы.

Наблюдаемость помогает не только быстрее решать проблемы, но и полностью предотвращать их. Авторы подчеркивают, как команды могут предотвращать критические проблемы,:

Выявление потенциальных проблем до того, как они станут критическими

Анализ шаблонов для предотвращения повторяющихся проблем

Понимание поведения системы при различных условиях

Проактивная работа с узкими местами в производительности

Принятие решений на основе данных о улучшении системы

Собственная платформа наблюдаемости ClickHouse, LogHouse, демонстрирует это. Она позволяет нашим ведущим инженерам искать исторические паттерны по всем кластерам, помогая предотвратить повторяющиеся проблемы.

Одним из самых недооцененных преимуществ является влияние на удовлетворенность и удержание команды. Авторы подчеркивают, как наблюдаемость приводит к:

Улучшению удовлетворенности работой за счет лучших инструментов

Уменьшению выгорания разработчиков из-за меньшего числа нерешенных проблем

Снижению усталости от сигналов благодаря лучшему соотношению сигнал/шум

Снижению стресса от дежурства благодаря лучшему управлению инцидентами

Повышению уверенности команды в надежности системы

Мы видим это на практике — когда Fastly мигрировала на ClickHouse, их инженеры были поражены улучшением производительности запросов, отмечая:

"Я не мог в это поверить. Мне действительно пришлось вернуться несколько раз, чтобы убедиться, что я запрашиваю это правильно... это возвращается слишком быстро. Это не имеет смысла."

Как подчеркивают авторы, хотя конкретные меры этих преимуществ могут различаться в зависимости от инструментов и реализации, этих фундаментальных улучшений можно ожидать от организаций, которые принимают надежные практики наблюдаемости. Ключом является правильный выбор и эффективная реализация нужных инструментов, чтобы максимизировать эти преимущества.

Достижение этих преимуществ требует преодоления нескольких значительных барьеров. Даже организации, которые понимают ценность наблюдаемости, часто обнаруживают, что реализация представляет неожиданные сложности и проблемы, которые необходимо внимательно решать.

Реализация наблюдаемости в организации — это преобразующий шаг к глубокому пониманию производительности и надежности системы. Однако это путешествие не лишено своих трудностей. Стремясь использовать все возможности наблюдаемости, организации сталкиваются с различными препятствиями, которые могут мешать прогрессу. Давайте рассмотрим некоторые из них.

Одним из основных препятствий на пути к реализации наблюдаемости является управление колоссальным объемом и масштабируемостью данных телеметрии, генерируемых современными системами. По мере роста организаций увеличивается и объем данных, которые им нужно мониторить, что требует решений, способных эффективно обрабатывать массовый прием данных и анализ в реальном времени.

Интеграция с существующими системами также представляет собой значительную проблему. Многие организации работают в гетерогенных средах с разнообразными технологиями, что делает важным для инструментов наблюдаемости бесшовную интеграцию с текущей инфраструктурой. Открытые стандарты имеют решающее значение для облегчения этой интеграции, обеспечивая совместимость и снижая сложность внедрения решений по наблюдаемости через разные технологии.

Пробелы в навыках также могут помешать успешной реализации наблюдаемости. Переход к продвинутым решениям по наблюдаемости часто требует специализированных знаний в области анализа данных и конкретных инструментов. Командам может понадобиться инвестировать в обучение или найм, чтобы сократить эти пробелы и в полной мере использовать возможности своих платформ наблюдаемости.

Управление затратами имеет решающее значение, поскольку решения по наблюдаемости могут стать дорогими, особенно в масштабах. Организациям необходимо сбалансировать стоимость этих инструментов с предоставляемой их ценностью, ищя решение, приносящее значительную экономию по сравнению с традиционными подходами.

Управление сохранением и хранением данных представляет собой дополнительные проблемы. Решение о том, как долго сохранять данные наблюдаемости, не укореняясь в производительности или понимании, требует тщательного планирования и эффективных решений для хранения, которые уменьшают требования к хранению, сохраняя при этом доступность данных.

Обеспечение стандартизации и избегание привязки к поставщику имеют важное значение для поддержания гибкости и адаптируемости в решениях по наблюдаемости. Соблюдая открытые стандарты, организации могут избежать привязки к конкретным поставщикам и гарантировать, что их стек наблюдаемости может эволюционировать вместе с их потребностями.

Соображения безопасности и соблюдения норм остаются важными, особенно при работе с чувствительными данными в системах наблюдаемости. Организации должны гарантировать, что их решения по наблюдаемости соответствуют актуальным нормативным требованиям и эффективно защищают чувствительную информацию.

Эти проблемы подчеркивают важность стратегического планирования и осознанного принятия решений при реализации решений по наблюдаемости, которые эффективно соответствуют потребностям организации.

Чтобы справиться с этими вызовами, организациям нужна хорошо структурированная методология реализации наблюдаемости. Стандартный конвейер наблюдаемости эволюционировал, чтобы предоставить структуру для эффективного сбора, обработки и анализа телеметрических данных. Один из первых и самых влиятельных примеров этой эволюции пришел из опыта Twitter в 2013 году.