パラメトリック集約関数
一部の集約関数は、圧縮に使用される引数カラムだけでなく、初期化のための定数であるパラメーターのセットを受け入れることができます。構文は、1つの括弧の代わりに2つの括弧のペアです。最初のものはパラメーター用、2つ目は引数用です。
histogram
適応的なヒストグラムを計算します。正確な結果を保証するものではありません。
この関数は、A Streaming Parallel Decision Tree Algorithmを使用しています。ヒストグラムビンの境界は、新しいデータが関数に入るにつれて調整されます。一般的なケースでは、ビンの幅は等しくありません。
引数
values
— 入力値の結果をもたらす Expression。
パラメーター
number_of_bins
— ヒストグラムのビンの最大数。この関数は自動的にビンの数を計算します。指定されたビンの数に達しようとしますが、失敗した場合はより少ないビンを使用します。
返される値
例
ヒストグラムは bar 関数を使って視覚化できます。例えば:
この場合、ヒストグラムビンの境界が不明であることを覚えておくべきです。
sequenceMatch
シーケンスがパターンに一致するイベントチェーンを含むかどうかを確認します。
構文
同じ秒に発生するイベントは、結果に影響を与える未定義の順序でシーケンスに配置される場合があります。
引数
-
timestamp
— 時間データを含むと見なされるカラム。典型的なデータ型はDate
およびDateTime
です。サポートされている UInt データ型のいずれかを使用することもできます。 -
cond1
,cond2
— イベントのチェーンを記述する条件。データ型:UInt8
。最大32の条件引数を渡すことができます。この関数は、これらの条件で説明されたイベントのみを考慮します。シーケンスが条件で説明されていないデータを含む場合、関数はそれらをスキップします。
パラメーター
pattern
— パターン文字列。 パターン構文を参照してください。
返される値
- パターンが一致した場合は1。
- パターンが一致しない場合は0。
型: UInt8
。
パターン構文
-
(?N)
— 条件引数の位置N
に一致します。条件は[1, 32]
の範囲で番号が付けられています。たとえば、(?1)
はcond1
パラメーターに渡された引数に一致します。 -
.*
— 任意の数のイベントに一致します。このパターンの要素に一致させるために条件引数は必要ありません。 -
(?t operator value)
— 2つのイベントを区切るべき時間を秒単位で設定します。たとえば、パターン(?1)(?t>1800)(?2)
は、1800秒以上の間隔で発生するイベントに一致します。任意の数のイベントがこれらのイベントの間に存在する可能性があります。演算子>=
,>
,<
,<=
,==
を使用できます。
例
t
テーブルのデータを考えます:
クエリを実行します:
この関数は、1に続く2のイベントチェーンを見つけました。条件で説明されていない3の番号はスキップされました。条件の一部としてこの番号を考慮に入れた場合、以下のようにすべきです。
この場合、関数はパターンと一致するイベントチェーンを見つけられませんでした。なぜなら、番号3のイベントは1と2の間に発生したからです。同様のケースで番号4の条件を確認した場合、シーケンスはパターンと一致します。
関連項目
sequenceCount
パターンに一致したイベントチェーンの数をカウントします。この関数は、重複していないイベントチェーンを検索します。現在のチェーンが一致した後に次のチェーンを検索し始めます。
同じ秒に発生するイベントは、結果に影響を与える未定義の順序でシーケンスに配置される場合があります。
構文
引数
-
timestamp
— 時間データを含むと見なされるカラム。典型的なデータ型はDate
およびDateTime
です。サポートされている UInt データ型のいずれかを使用することもできます。 -
cond1
,cond2
— イベントのチェーンを記述する条件。データ型:UInt8
。最大32の条件引数を渡すことができます。この関数は、これらの条件で説明されたイベントのみを考慮します。シーケンスが条件で説明されていないデータを含む場合、関数はそれらをスキップします。
パラメーター
pattern
— パターン文字列。 パターン構文を参照してください。
返される値
- 一致した重複のないイベントチェーンの数。
型: UInt64
。
例
t
テーブルのデータを考えます:
任意の数の他の番号の間に番号1の後に番号2が何回出現したかをカウントします:
sequenceMatchEvents
パターンに一致した最長のイベントチェーンのイベントのタイムスタンプを返します。
同じ秒に発生するイベントは、結果に影響を与える未定義の順序でシーケンスに配置される場合があります。
構文
引数
-
timestamp
— 時間データを含むと見なされるカラム。典型的なデータ型はDate
およびDateTime
です。サポートされている UInt データ型のいずれかを使用することもできます。 -
cond1
,cond2
— イベントのチェーンを記述する条件。データ型:UInt8
。最大32の条件引数を渡すことができます。この関数は、これらの条件で説明されたイベントのみを考慮します。シーケンスが条件で説明されていないデータを含む場合、関数はそれらをスキップします。
パラメーター
pattern
— パターン文字列。 パターン構文を参照してください。
返される値
- イベントチェーンからの一致した条件引数 (?N) のタイムスタンプの配列。配列内の位置は、パターン内での条件引数の位置に一致します。
型: Array。
例
t
テーブルのデータを考えます:
最長のチェーンのイベントのタイムスタンプを返します
関連項目
windowFunnel
スライディングウィンドウ内でイベントチェーンを検索し、チェーンから発生したイベントの最大数を計算します。
この関数は以下のアルゴリズムに従って動作します:
-
関数は、チェーン内の最初の条件をトリガーするデータを検索し、イベントカウンターを1に設定します。これがスライディングウィンドウが始まる瞬間です。
-
チェーンからのイベントがウィンドウ内で連続して発生する場合、カウンターは増加します。イベントのシーケンスが中断された場合、カウンターは増加しません。
-
データに異なる完了ポイントで複数のイベントチェーンがある場合、関数は最長のチェーンのサイズのみを出力します。
構文
引数
timestamp
— タイムスタンプを含むカラムの名前。サポートされるデータ型: Date、DateTime および他の符号なし整数型 (タイムスタンプはUInt64
型をサポートしていますが、その値は Int64の最大値である 2^63 - 1 を超えることはできません)。cond
— イベントチェーンを記述する条件またはデータ。 UInt8。
パラメーター
window
— スライディングウィンドウの長さで、最初の条件と最後の条件の間の時間間隔です。window
の単位はtimestamp
自体によって異なります。timestamp of cond1 <= timestamp of cond2 <= ... <= timestamp of condN <= timestamp of cond1 + window
で定義されます。mode
— オプションの引数です。1つ以上のモードを設定できます。'strict_deduplication'
— 同じ条件がイベントのシーケンスに適用される場合、その繰り返しイベントはさらなる処理を中断させます。注意: 同じイベントに対して複数の条件が適用される場合、予期しない動作が起こる可能性があります。'strict_order'
— 他のイベントの介入を許可しません。例えば、A->B->D->C
の場合、D
でA->B->C
の検索を停止し、最大イベントレベルは2になります。'strict_increase'
— タイムスタンプが厳密に増加しているイベントにのみ条件を適用します。'strict_once'
— 条件を満たすたびに、イベントをチェーン内で1回だけカウントします。
返される値
スライディングウィンドウ内のチェーンからトリガーされた連続条件の最大数。 選択したすべてのチェーンが分析されます。
型: Integer
。
例
ユーザーがオンラインストアで電話を選択し、2回購入するのに十分な時間があるかどうかを判断します。
次の条件のイベントチェーンを設定します:
- ユーザーがストアのアカウントにログインしました (
eventID = 1003
)。 - ユーザーが電話を検索しました (
eventID = 1007, product = 'phone'
)。 - ユーザーが注文をしました (
eventID = 1009
)。 - ユーザーが再度注文をしました (
eventID = 1010
)。
入力テーブル:
ユーザー user_id
が2019年1月から2月の期間にチェーンをどのくらい進んだのかを調べます。
クエリ:
結果:
retention
この関数は、イベントに対して条件が満たされたかどうかを示す型 UInt8
の1から32の引数のセットを引数として取ります。
任意の条件を引数として指定できます(WHERE のように)。
条件は、最初の条件を除いてペアで適用されます: 2番目の条件が真である場合第1および第2が真、3番目の場合は第1および第3が真になります。
構文
引数
cond
—UInt8
結果 (1または0) を返す式。
返される値
1または0の配列。
- 1 — イベントの条件が満たされました。
- 0 — イベントの条件が満たされませんでした。
型: UInt8
。
例
サイトトラフィックを測定するための retention
関数の計算の例を考えます。
1. サンプルを示すためのテーブルを作成します。
入力テーブル:
クエリ:
結果:
2. retention
関数を使用して、ユーザーをユニークID uid
でグループ化します。
クエリ:
結果:
3. 日ごとのサイト訪問数を合計します。
クエリ:
結果:
ここで:
r1
- 2020-01-01 にサイトを訪れたユニークな訪問者の数(cond1
条件)。r2
- 2020-01-01 と2020-01-02 の間の特定の期間にサイトを訪れたユニークな訪問者の数(cond1
およびcond2
条件)。r3
- 2020-01-01 および2020-01-03 の特定の期間にサイトを訪れたユニークな訪問者の数(cond1
およびcond3
条件)。
uniqUpTo(N)(x)
指定した制限 N
までの引数の異なる値の数を計算します。異なる引数の値の数が N
を超える場合、この関数は N
+ 1 を返します。それ以外の場合は、正確な値を計算します。
小さい N
、最大で10での使用を推奨します。N
の最大値は100です。
集約関数の状態には、この関数は1 + N
* 1つの値のバイト数に等しいメモリ量を使用します。
文字列を扱う場合、この関数は8バイトの非暗号化ハッシュを保存します;計算は文字列のための近似です。
例えば、ユーザーがあなたのウェブサイトで行った各検索クエリを記録するテーブルがあるとします。テーブル内の各行は単一の検索クエリを表し、ユーザーID、検索クエリ、およびクエリのタイムスタンプの列を持っています。uniqUpTo
を使って、少なくとも5人のユニークなユーザーが使用したキーワードのみを示すレポートを生成できます。
uniqUpTo(4)(UserID)
は、各 SearchPhrase
のユニークな UserID
値の数を計算しますが、最大4つのユニークな値までしかカウントしません。SearchPhrase
にユニークな UserID
値が4つ以上ある場合、関数は5(4 + 1)を返します。HAVING
句は Uniqueな UserID
値の数が5未満の SearchPhrase
値をフィルタリングします。これは、少なくとも5人のユニークなユーザーによって使用された検索キーワードのリストを提供します。
sumMapFiltered
この関数は、sumMap と同じように動作しますが、フィルタリングに使用するキーの配列もパラメーターとして受け入れます。これは、高いカーディナリティのキーを扱う際に特に便利です。
構文
sumMapFiltered(keys_to_keep)(keys, values)
パラメーター
返される値
- ソートされた順序でのキーのタプルと、対応するキーに対して合計された値の2つの配列を返します。
例
クエリ:
結果:
sumMapFilteredWithOverflow
この関数は、sumMap と同じように動作しますが、フィルタリングに使用するキーの配列もパラメーターとして受け入れます。これは、高いカーディナリティのキーを扱う際に特に便利です。sumMapFiltered 関数とは異なり、オーバーフローでの合計を実行します。つまり、合計のデータ型が引数のデータ型と同じであることを保証します。
構文
sumMapFilteredWithOverflow(keys_to_keep)(keys, values)
パラメーター
返される値
- ソートされた順序でのキーのタプルと、対応するキーに対して合計された値の2つの配列を返します。
例
この例では sum_map
テーブルを作成し、データを挿入し、その後 sumMapFilteredWithOverflow
と sumMapFiltered
の両方と、結果の比較のために toTypeName
関数を使用します。リクエストが作成されたテーブルで UInt8
型であるのに対し、sumMapFiltered
はオーバーフローを回避するために合計された値の型を UInt64
に昇格させますが、sumMapFilteredWithOverflow
は型を UInt8
のまま保持するため、結果を保存するには十分ではありません。つまり、オーバーフローが発生しました。
クエリ:
結果:
sequenceNextNode
イベントチェーンに一致した次のイベントの値を返します。
実験的な関数であり、SET allow_experimental_funnel_functions = 1
を設定することで有効にします。
構文
パラメータ
-
direction
— 移動方向を指定します。- forward — 前方へ移動します。
- backward — 後方へ移動します。
-
base
— 基準点を設定します。- head — 基準点を最初のイベントに設定します。
- tail — 基準点を最後のイベントに設定します。
- first_match — 基準点を最初に一致した
event1
に設定します。 - last_match — 基準点を最後に一致した
event1
に設定します。
引数
timestamp
— タイムスタンプを含むカラムの名前。サポートされているデータ型: Date、DateTime および他の符号なし整数型。event_column
— 次の返されるべきイベントの値を含むカラムの名前。サポートされているデータ型: String および Nullable(String)。base_condition
— 基準点が満たすべき条件。event1
,event2
, ... — イベントのチェーンを説明する条件。 UInt8。
返される値
event_column[next_index]
— パターンが一致し、次の値が存在する場合。NULL
- パターンが一致しない場合、または次の値が存在しない場合。
タイプ: Nullable(String)。
例
イベントが A->B->C->D->E の場合に、B->C の次のイベントである D を知りたいときに使用できます。
A->B の次のイベントを検索するクエリ文:
結果:
forward
と head
の動作
backward
と tail
の動作
forward
と first_match
の動作
backward
と last_match
の動作
base_condition
の動作