メインコンテンツまでスキップ
メインコンテンツまでスキップ

時系列分析関数

ClickHouseでの時系列分析は、標準のSQL集約およびウィンドウ関数を使用して行うことができます。 時系列データを扱う際には、通常、3つの主要な種類のメトリックに遭遇します:

  • 時間とともに単調に増加するカウンターメトリック(ページビューや合計イベントのようなもの)
  • 時点の測定値を表すゲージメトリック(CPU使用率や温度のような上がったり下がったりするもの)
  • 観測値をサンプリングし、バケツ内でカウントするヒストグラム(リクエストの所要時間や応答サイズのようなもの)

これらのメトリックに対する一般的な分析パターンには、期間間の値の比較、累積合計の計算、変化率の算出、分布の分析が含まれます。 これらは、集約、sum() OVERのようなウィンドウ関数、およびhistogram()のような専門的な関数の組み合わせを通じて実現できます。

期間間の変化

時系列データを分析する際には、時間の経過に伴う値の変化を理解する必要があります。 これは、ゲージメトリックとカウンターメトリックの両方にとって不可欠です。 lagInFrameウィンドウ関数を使用することで、前の期間の値にアクセスし、これらの変化を計算できます。

以下のクエリは、「Weird Al」 Yankovicのウィキペディアページのビュー数の日次変化を計算することでこれを示しています。 トレンド列は、前の日と比較してトラフィックが増加した(正の値)か減少した(負の値)かを示し、活動の異常な高まりや低下を特定するのに役立ちます。

SELECT
    toDate(time) AS day,
    sum(hits) AS h,
    lagInFrame(h) OVER (ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS p,
    h - p AS trend
FROM wikistat
WHERE path = '"Weird_Al"_Yankovic'
GROUP BY ALL
LIMIT 10;
┌────────day─┬────h─┬────p─┬─trend─┐
│ 2015-05-01 │ 3934 │    0 │  3934 │
│ 2015-05-02 │ 3411 │ 3934 │  -523 │
│ 2015-05-03 │ 3195 │ 3411 │  -216 │
│ 2015-05-04 │ 3076 │ 3195 │  -119 │
│ 2015-05-05 │ 3450 │ 3076 │   374 │
│ 2015-05-06 │ 3053 │ 3450 │  -397 │
│ 2015-05-07 │ 2890 │ 3053 │  -163 │
│ 2015-05-08 │ 3898 │ 2890 │  1008 │
│ 2015-05-09 │ 3092 │ 3898 │  -806 │
│ 2015-05-10 │ 3508 │ 3092 │   416 │
└────────────┴──────┴──────┴───────┘

累積値

カウンターメトリックは自然に時間とともに蓄積されます。 この累積成長を分析するために、ウィンドウ関数を使用して累積合計を計算できます。

以下のクエリは、sum() OVER句を使用して累積合計を作成し、bar()関数で成長の視覚的な表現を提供することでこれを示しています。

SELECT
    toDate(time) AS day,
    sum(hits) AS h,
    sum(h) OVER (ROWS BETWEEN UNBOUNDED PRECEDING AND 0 FOLLOWING) AS c,
    bar(c, 0, 50000, 25) AS b
FROM wikistat
WHERE path = '"Weird_Al"_Yankovic'
GROUP BY ALL
ORDER BY day
LIMIT 10;
┌────────day─┬────h─┬─────c─┬─b─────────────────┐
│ 2015-05-01 │ 3934 │  3934 │ █▉                │
│ 2015-05-02 │ 3411 │  7345 │ ███▋              │
│ 2015-05-03 │ 3195 │ 10540 │ █████▎            │
│ 2015-05-04 │ 3076 │ 13616 │ ██████▊           │
│ 2015-05-05 │ 3450 │ 17066 │ ████████▌         │
│ 2015-05-06 │ 3053 │ 20119 │ ██████████        │
│ 2015-05-07 │ 2890 │ 23009 │ ███████████▌      │
│ 2015-05-08 │ 3898 │ 26907 │ █████████████▍    │
│ 2015-05-09 │ 3092 │ 29999 │ ██████████████▉   │
│ 2015-05-10 │ 3508 │ 33507 │ ████████████████▊ │
└────────────┴──────┴───────┴───────────────────┘

レート計算

時系列データを分析する際には、時間単位あたりのイベントのレートを理解することがしばしば役立ちます。 このクエリは、時間当たりの合計を1時間(3600秒)で割ることによって、秒間のページビューのレートを計算します。 視覚的なバーは、活動のピーク時間を特定するのに役立ちます。

SELECT
    toStartOfHour(time) AS time,
    sum(hits) AS hits,
    round(hits / (60 * 60), 2) AS rate,
    bar(rate * 10, 0, max(rate * 10) OVER (), 25) AS b
FROM wikistat
WHERE path = '"Weird_Al"_Yankovic'
GROUP BY time
LIMIT 10;
┌────────────────time─┬───h─┬─rate─┬─b─────┐
│ 2015-07-01 01:00:00 │ 143 │ 0.04 │ █▊    │
│ 2015-07-01 02:00:00 │ 170 │ 0.05 │ ██▏   │
│ 2015-07-01 03:00:00 │ 148 │ 0.04 │ █▊    │
│ 2015-07-01 04:00:00 │ 190 │ 0.05 │ ██▏   │
│ 2015-07-01 05:00:00 │ 253 │ 0.07 │ ███▏  │
│ 2015-07-01 06:00:00 │ 233 │ 0.06 │ ██▋   │
│ 2015-07-01 07:00:00 │ 359 │  0.1 │ ████▍ │
│ 2015-07-01 08:00:00 │ 190 │ 0.05 │ ██▏   │
│ 2015-07-01 09:00:00 │ 121 │ 0.03 │ █▎    │
│ 2015-07-01 10:00:00 │  70 │ 0.02 │ ▉     │
└─────────────────────┴─────┴──────┴───────┘

ヒストグラム

時系列データの人気のある使用例は、追跡されたイベントに基づいてヒストグラムを作成することです。 例えば、合計ヒット数に基づいていくつかのページの分布を理解したいとします。10,000ヒットを超えるページのみを含めます。 histogram()関数を使用して、ビンの数に基づいて自動的に適応ヒストグラムを生成できます。

SELECT
    histogram(10)(hits) AS hist
FROM
(
    SELECT
        path,
        sum(hits) AS hits
    FROM wikistat
    WHERE date(time) = '2015-06-15'
    GROUP BY path
    HAVING hits > 10000
)
FORMAT Vertical;
Row 1:
──────
hist: [(10033,23224.55065359477,60.625),(23224.55065359477,37855.38888888889,15.625),(37855.38888888889,52913.5,3.5),(52913.5,69438,1.25),(69438,83102.16666666666,1.25),(83102.16666666666,94267.66666666666,2.5),(94267.66666666666,116778,1.25),(116778,186175.75,1.125),(186175.75,946963.25,1.75),(946963.25,1655250,1.125)]

次に、arrayJoin()を使用してデータを整形し、bar()で視覚化します:

WITH histogram(10)(hits) AS hist
SELECT
    round(arrayJoin(hist).1) AS lowerBound,
    round(arrayJoin(hist).2) AS upperBound,
    arrayJoin(hist).3 AS count,
    bar(count, 0, max(count) OVER (), 20) AS b
FROM
(
    SELECT
        path,
        sum(hits) AS hits
    FROM wikistat
    WHERE date(time) = '2015-06-15'
    GROUP BY path
    HAVING hits > 10000
);
┌─lowerBound─┬─upperBound─┬──count─┬─b────────────────────┐
│      10033 │      19886 │ 53.375 │ ████████████████████ │
│      19886 │      31515 │ 18.625 │ ██████▉              │
│      31515 │      43518 │  6.375 │ ██▍                  │
│      43518 │      55647 │  1.625 │ ▌                    │
│      55647 │      73602 │  1.375 │ ▌                    │
│      73602 │      92880 │   3.25 │ █▏                   │
│      92880 │     116778 │  1.375 │ ▌                    │
│     116778 │     186176 │  1.125 │ ▍                    │
│     186176 │     946963 │   1.75 │ ▋                    │
│     946963 │    1655250 │  1.125 │ ▍                    │
└────────────┴────────────┴────────┴──────────────────────┘