メインコンテンツへスキップ
メインコンテンツへスキップ

approx_top_k

approx_top_k

導入バージョン: v1.1

指定したカラムにおいて、おおよそ最も頻出する値とそのカウントを配列として返します。 結果の配列は、値そのものではなく、値のおおよその出現頻度の降順でソートされます。

この関数の結果は厳密なものではありません。 状況によっては誤差が生じ、最頻値ではない値を頻出値として返す場合があります。

構文

approx_top_k(N[, reserved])(column)

別名: approx_top_count

パラメータ

  • N — 返す要素の数。デフォルト値: 10N の最大値は 65536UInt64
  • reserved — 省略可能。値のために予約しておくセル数を定義します。uniq(column) > reserved の場合、結果は近似値になります。デフォルト値: N * 3UInt64

引数

  • column — 最も頻繁に出現する値を検索する対象カラムの名前。String

戻り値

おおよその最頻値とその出現回数からなる配列を、推定頻度の降順でソートして返します。Array

使用例

SELECT approx_top_k(2)(k)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));
┌─approx_top_k(2)(k)────┐
│ [('y',3,0),('x',1,0)] │
└───────────────────────┘

関連項目