Перейти к основному содержанию
Перейти к основному содержанию

approx_top_k

Возвращает массив значений, приблизительно наиболее часто встречающихся в указанном столбце, и количества их вхождений. Полученный массив отсортирован по убыванию приблизительной частоты встречаемости значений (а не по самим значениям).

approx_top_k(N)(column)
approx_top_k(N, reserved)(column)

Эта функция не гарантирует точный результат. В некоторых ситуациях могут возникать ошибки, и она может вернуть частые значения, которые не являются наиболее частыми.

Максимальное значение параметра N — 65536.

Параметры

  • N — Количество возвращаемых элементов. Необязательный параметр. Значение по умолчанию: 10.
  • reserved — Определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > reserved, результат функции topK будет приблизительным. Необязательный параметр. Значение по умолчанию: N * 3.

Аргументы

  • column — Столбец, для которого вычисляется частота значений.

Пример

Запрос:

SELECT approx_top_k(2)(k)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));

Результат:

┌─approx_top_k(2)(k)────┐
│ [('y',3,0),('x',1,0)] │
└───────────────────────┘

approx_top_count

Является синонимом функции approx_top_k

См. также