基本的な時系列操作
ClickHouseは、時系列データを操作するためのいくつかのメソッドを提供し、異なる期間にわたってデータポイントを集計、グループ化、分析できるようにします。このセクションでは、時間ベースのデータを扱う際に一般的に使用される基本的な操作について説明します。
一般的な操作には、時間間隔でデータをグループ化すること、時系列データのギャップを処理すること、期間間の変化を計算することが含まれます。これらの操作は、標準SQL構文とClickHouseの組み込みの時間関数を組み合わせて実行できます。
Wikistat(Wikipediaページビューデータ)データセットを使って、ClickHouseの時系列クエリ機能を探ってみましょう:
このテーブルを10億レコードで埋めましょう:
時間バケットによる集約
最も一般的な要求は、期間に基づいてデータを集約することです。例えば、各日の合計ヒット数を取得します:
ここでは、toDate()
関数を使用しました。これは、指定した時間を日付型に変換します。代わりに、時間毎にバッチ処理し、特定の日付でフィルタリングすることもできます:
ここで使用したtoStartOfHour()
関数は、指定された時間をその時間の開始に変換します。年、四半期、月、または日でグループ化することもできます。
カスタムグループ化間隔
任意の間隔でグループ化することもできます。例えば、5分ごとにtoStartOfInterval()
関数を使用できます。
4時間ごとにグループ化したいとしましょう。グループ化の間隔をINTERVAL
句を使って指定できます:
または、toIntervalHour()
関数を使うこともできます:
どちらの場合でも、以下の結果が得られます:
空のグループを填充する
多くの場合、いくつかの間隔が欠落したスパースデータを扱います。これにより、空のバケットが生成されます。1時間ごとにデータをグループ化する例を考えてみましょう。これは、いくつかの時間の値が欠落している統計を出力します:
ClickHouseは、これに対処するためにWITH FILL
修飾子を提供しています。これにより、すべての空の時間がゼロで埋められ、時間の分布を理解しやすくなります:
ローリング時間ウィンドウ
時には、間隔の開始(例えば、日の開始や時間の開始)ではなく、ウィンドウ間隔を扱いたい場合があります。6時からオフセットされた24時間の期間に基づいて、総ヒット数を理解したいとします。
この場合、date_diff()
関数を使用して、基準時間と各レコードの時間との違いを計算できます。この場合、day
カラムは日数の違い(例えば、1日前、2日前など)を表します: