approx_top_sum

Введена в версии v1.1.0

Возвращает массив приблизительно самых частых значений и их количеств в указанном столбце. Полученный массив отсортирован в порядке убывания приблизительной частоты значений (не по самим значениям). Дополнительно учитывается вес значения.

Эта функция не гарантирует точный результат. В некоторых ситуациях могут возникать ошибки, и она может вернуть часто встречающиеся значения, которые не являются самыми частыми.

См. также

Синтаксис

approx_top_sum(N[, reserved])(column, weight)

Параметры

N — Количество элементов, которые нужно вернуть. Необязательный параметр. Значение по умолчанию: 10. UInt64
reserved — Необязательный параметр. Определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > reserved, результат функции topK будет приблизительным. Значение по умолчанию: N * 3. Максимальное значение N = 65536. UInt64

Аргументы

column — Имя столбца, для которого нужно найти наиболее часто встречающиеся значения. String
weight — Вес. Каждое значение учитывается weight раз при расчете частоты. UInt64

Возвращаемое значение

Возвращает массив приблизительно самых частых значений и соответствующих им количеств вхождений, отсортированный в порядке убывания приблизительной частоты. Array

Примеры

Пример использования

SELECT approx_top_sum(2)(k, w)
FROM VALUES('k Char, w UInt64', ('y', 1), ('y', 1), ('x', 5), ('y', 1), ('z', 10));

┌─approx_top_sum(2)(k, w)─┐
│ [('z',10,0),('x',5,0)]  │
└─────────────────────────┘

См. также

approx_top_sum​

approx_top_sum