メインコンテンツまでスキップ
メインコンテンツまでスキップ

topK

指定したカラムの最も頻繁に出現する値の配列を返します。結果の配列は、値自体ではなく、近似頻度の降順でソートされています。

これは、Filtered Space-Savingアルゴリズムを使用してTopKを分析しており、Parallel Space Savingからのreduce-and-combineアルゴリズムに基づいています。

この関数は、保証された結果を提供しません。特定の状況では、エラーが発生し、最も頻繁な値でない頻出値を返すことがあります。

N < 10の値を使用することをお勧めします。大きなN値ではパフォーマンスが低下します。最大値のN = 65536です。

パラメータ

  • N — 返す要素の数。オプション。デフォルト値:10。
  • load_factor — 値のために予約されたセルの数を定義します。uniq(column) > N * load_factorの場合、topK関数の結果は近似になります。オプション。デフォルト値:3。
  • counts — 結果に近似カウントとエラー値が含まれるべきかを定義します。

引数

  • column — 頻度を計算するための値。

OnTimeデータセットを取得し、AirlineIDカラムで最も頻繁に発生する3つの値を選択します。

関連情報