topK
指定したカラムの最も頻繁に出現する値の配列を返します。結果の配列は、値自体ではなく、近似頻度の降順でソートされています。
これは、Filtered Space-Savingアルゴリズムを使用してTopKを分析しており、Parallel Space Savingからのreduce-and-combineアルゴリズムに基づいています。
この関数は、保証された結果を提供しません。特定の状況では、エラーが発生し、最も頻繁な値でない頻出値を返すことがあります。
N < 10
の値を使用することをお勧めします。大きなN
値ではパフォーマンスが低下します。最大値のN = 65536
です。
パラメータ
N
— 返す要素の数。オプション。デフォルト値:10。load_factor
— 値のために予約されたセルの数を定義します。uniq(column) > N * load_factorの場合、topK関数の結果は近似になります。オプション。デフォルト値:3。counts
— 結果に近似カウントとエラー値が含まれるべきかを定義します。
引数
column
— 頻度を計算するための値。
例
OnTimeデータセットを取得し、AirlineID
カラムで最も頻繁に発生する3つの値を選択します。
関連情報