聚合函数

ClickHouse 支持所有标准 SQL 聚合函数 (sum、avg、min、max、count) ，以及大量其他聚合函数。

页面	说明
aggThrow	此函数可用于测试异常安全性。它会在创建时以指定概率抛出异常。
analysisOfVariance	提供单因素方差分析（ANOVA）的统计检验。它用于对若干组服从正态分布的观测值进行检验，以判断各组的均值是否相同。
any	返回列中遇到的第一个值。
anyHeavy	使用 heavy hitters 算法选择一个频繁出现的值。如果在每个查询执行线程中，都存在某个值在该线程中的出现次数超过一半，则返回该值。通常，结果是非确定性的。
anyLast	返回列中最后出现的值。
approx_top_k	返回一个数组，其中包含指定列中近似出现频率最高的值及其出现次数。
approx_top_sum	返回一个数组，其中包含指定列中近似出现频率最高的值及其出现次数。
argAndMax	计算最大 `val` 值所对应的 `arg` 和 `val`。若存在多行记录的 `val` 相同且均为最大值，则最终返回的 `arg` 和 `val` 是不确定的。
argAndMin	计算最小 `val` 值对应的 `arg` 和 `val`。若存在多行记录的 `val` 相同且均为最小值，则最终返回哪一行对应的 `arg` 和 `val` 是不确定的。
argMax	计算最大 `val` 值对应的 `arg` 值。
argMin	计算使 `val` 取得最小值时的 `arg` 值。如果存在多行记录的 `val` 相同且都是最大值，则返回哪一行对应的 `arg` 是不确定的。
avg	计算算术平均值。
avgWeighted	计算加权平均值。
boundingRatio	用于计算一组值中最左和最右端点之间斜率的聚合函数。
categoricalInformationValue	为每个类别计算 `(P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0)))` 的值。
contingency	`contingency` 函数计算列联系数，该系数用于度量表中两列之间的关联程度。其计算方法与 `cramersV` 函数类似，但平方根中的分母不同。
corr	计算皮尔逊相关系数。
corrMatrix	计算 N 个变量的相关系数矩阵。
corrStable	计算皮尔逊相关系数，但使用数值更稳定的算法。
count	计算行数或非 NULL 值的个数。
covarPop	计算总体协方差
covarPopMatrix	返回 N 个变量的总体协方差矩阵。
covarPopStable	计算总体协方差值
covarSamp	计算 `Σ((x - x̅)(y - y̅)) / (n - 1)` 的值
covarSampMatrix	返回 N 个变量的样本协方差矩阵。
covarSampStable	类似于 covarSamp，但计算速度较慢，计算误差更小。
cramersV	`cramersV` 函数的结果范围从 0（表示变量之间没有关联）到 1，并且只有在每个变量的取值都完全由另一个变量决定时才会达到 1。它可以被理解为两个变量之间的关联程度，占其最大可能变化的百分比。
cramersVBiasCorrected	计算 Cramer's V，但进行了偏倚校正。
deltaSum	对连续行之间的算术差值求和。
deltaSumTimestamp	对连续行之间的差值进行累加。如果差值为负，则将其忽略。
distinctDynamicTypes	计算 Dynamic 列中存储的不同数据类型列表。
distinctJSONPaths	计算 JSON 列中存储的不同路径列表。
distinctJSONPathsAndTypes	计算 JSON 列中存储的唯一路径及其类型列表
entropy	计算某列取值的香农熵。
estimateCompressionRatio	在不压缩指定列的情况下，估计其压缩比。
exponentialMovingAverage	计算指定时间范围内数值的指数移动平均值。
exponentialTimeDecayedAvg	返回时间点 `t` 处时间序列值的指数平滑加权移动平均值。
exponentialTimeDecayedCount	返回时间索引为 `t` 时，时间序列上的累积指数衰减值。
exponentialTimeDecayedMax	返回在时间索引 `t` 和 `t-1` 处计算得到的指数平滑移动平均值中的较大者。
exponentialTimeDecayedSum	返回在时间索引 `t` 处时间序列的指数平滑移动平均值之和。
first_value	它是 `any` 的别名，为了与窗口函数（Window Functions）兼容而引入，因为在窗口函数中有时需要处理 `NULL` 值（默认情况下，所有 ClickHouse 聚合函数都会忽略 `NULL` 值）。
flameGraph	根据堆栈跟踪列表生成火焰图的聚合函数。
groupArray	创建一个包含参数值的数组。值可以以任意（不确定）顺序添加到该数组中。
groupArrayArray	将多个数组聚合成一个由这些数组组成的数组。
groupArrayInsertAt	在数组的指定位置插入一个值。
groupArrayIntersect	返回给定数组的交集（即所有给定数组中都存在的元素）。
groupArrayLast	创建一个由最后出现的参数值组成的数组。
groupArrayMovingAvg	计算输入值的滑动平均值。
groupArrayMovingSum	计算输入值的移动和。
groupArraySample	创建一个由参数值的样本组成的数组。结果数组的大小最多为 `max_size` 个元素。参数值会被随机选取并添加到数组中。
groupArraySorted	返回一个包含按升序排列的前 N 个元素的数组。
groupBitAnd	对一系列数值执行按位 `AND` 运算。
groupBitmap	对无符号整数列执行位图或聚合计算时，返回 UInt64 类型的基数；如果添加后缀 -State，则返回一个位图对象
groupBitmapAnd	对位图列执行 AND 运算，返回 UInt64 类型的基数值；如果添加后缀 -State，则返回一个位图对象。
groupBitmapOr	对位图列执行 OR 运算，返回 UInt64 类型的基数值；如果添加后缀 -State，则返回一个位图对象。等价于 `groupBitmapMerge`。
groupBitmapXor	对位图列执行 XOR 运算，返回 UInt64 类型的基数值；如果添加后缀 -State，则返回一个位图对象
groupBitOr	对一系列数值执行按位 `OR` 运算。
groupBitXor	对一系列数值执行按位 `XOR` 运算。
groupConcat	从一组字符串计算得到拼接后的字符串，可以选择指定分隔符，并可限制参与拼接的元素最大个数。
groupUniqArray	根据不同的参数值创建一个数组。
intervalLengthSum	计算数轴上所有区间并集的总长度。
kolmogorovSmirnovTest	对来自两个总体的样本执行 Kolmogorov-Smirnov 检验。
kurtPop	计算序列的峰度。
kurtSamp	计算序列的样本峰度。
largestTriangleThreeBuckets	将 Largest-Triangle-Three-Buckets 算法应用于输入数据。
last_value	返回最后一次出现的值，类似于 `anyLast`，但可以接受 NULL 值。
mannWhitneyUTest	对来自两个总体的样本执行 Mann-Whitney 秩检验。
max	用于计算一组值中最大值的聚合函数。
maxIntersections	在所有区间之间至少发生过一次相交的前提下，计算一组区间最大相交次数的聚合函数。
maxIntersectionsPosition	用于计算 `maxIntersections` 函数出现位置的聚合函数。
maxMap	根据 `key` 数组中指定的键，从 `value` 数组中计算最大值。
meanZTest	对来自两个总体的样本进行均值 z 检验。
median	`median` 函数是对应 `quantile` 函数的别名。它们用于计算数值数据样本的中位数。
min	用于计算一组值最小值的聚合函数。
minMap	根据 `key` 数组中的键，对 `value` 数组求最小值。
quantile	计算数值序列的近似分位数。
quantileBFloat16	计算由 bfloat16 数值组成的样本的近似分位数。
quantileDD	计算样本的近似分位数，并保证相对误差有界。
quantileDeterministic	计算数值序列的近似分位数。
quantileExact 函数	quantileExact、quantileExactLow、quantileExactHigh、quantileExactExclusive、quantileExactInclusive 函数
quantileExactExclusive	精确计算数值数据序列的分位数。
quantileExactHigh	与 quantileExact 类似，用于精确计算数值数据序列的分位数。
quantileExactInclusive	精确计算数值数据序列的分位数。
quantileExactLow	类似于 quantileExact，该函数精确计算数值数据序列的分位数。
quantileExactWeighted	精确计算数值数据序列的分位数，并考虑每个元素的权重。
quantileExactWeightedInterpolated	使用线性插值计算数值数据序列的分位数，同时考虑每个元素的权重。
quantileGK	使用 Greenwald-Khanna 算法计算数值序列的分位数。
quantileInterpolatedWeighted	使用线性插值计算数值数据序列的分位数，同时考虑每个元素的权重。
quantilePrometheusHistogram	使用线性插值计算直方图的分位数。
quantiles 聚合函数	quantiles, quantilesExactExclusive, quantilesExactInclusive, quantilesGK
quantilesExactExclusive	精确计算数值数据序列的分位数。
quantilesExactInclusive	精确计算数值数据序列的各个分位数。
quantilesGK	quantilesGK 的工作方式类似于 quantileGK，但支持同时计算多个分位数，并返回一个数组。
quantilesTimingWeighted	以指定精度计算数值数据序列的分位数，并考虑每个序列元素的权重。
quantileTDigest	使用 t-digest 算法计算数值序列的近似分位数。
quantileTDigestWeighted	使用 t-digest 算法计算数值序列的近似分位数。
quantileTiming	以指定精度计算数值数据序列的分位数。
quantileTimingWeighted	以指定精度计算数值数据序列的分位数，并考虑每个序列元素的权重。
rankCorr	计算秩相关系数。
simpleLinearRegression	执行简单的一元线性回归。
singleValueOrNull	聚合函数 `singleValueOrNull` 用于实现子查询运算符，例如 `x = ALL (SELECT ...)`。它会检查数据中是否恰好只有一个唯一的非 NULL 值。
skewPop	计算序列的偏度。
skewSamp	计算序列的样本偏度。
sparkbar	该函数在区间 `[min_x, max_x]` 内，根据取值 `x` 及其在该区间内的重复次数 `y` 绘制频数直方图。
stddevPop	结果等于 varPop 的平方根。
stddevPopStable	结果等于 varPop 的平方根。与 stddevPop 不同，此函数使用数值更稳定的算法。
stddevSamp	结果等于 varSamp 的平方根
stddevSampStable	结果等于 varSamp 的平方根。与 stddevSamp 不同，此函数使用数值更稳定的算法。
stochasticLinearRegression	此函数实现了随机线性回归。它支持自定义学习率、L2 正则化系数、小批量（mini-batch）大小等参数，并提供几种用于更新权重的方法（Adam、简单 SGD、Momentum、Nesterov）。
stochasticLogisticRegression	此函数实现了随机逻辑回归。它可用于二元分类问题，并支持与 stochasticLinearRegression 相同的自定义参数，工作方式也与之相同。
studentTTest	对来自两个总体的样本执行 Student t 检验。
studentTTestOneSample	对一个样本与已知总体均值执行单样本 Student t 检验。
sum	计算总和。只适用于数值类型。
sumCount	同时计算数值总和和行数。该函数由 ClickHouse 查询优化器使用：如果在一个查询中存在多个 `sum`、`count` 或 `avg` 函数，它们可以替换为单个 `sumCount` 函数以重用计算结果。通常很少需要显式地使用该函数。
sumKahan	使用 Kahan 补偿求和算法计算数值之和
sumMap	根据 `key` 数组中指定的键，对一个或多个 `value` 数组求和。返回一个由数组构成的元组：第一个为按排序顺序排列的键数组，第二个为对应键的求和值数组，且不会发生溢出。
sumMapWithOverflow	根据 `key` 数组中指定的键对 `value` 数组求和。返回一个包含两个数组的元组：按排序顺序排列的键数组，以及对应键的求和值数组。与 `sumMap` 函数不同，它在求和时允许发生溢出。
sumWithOverflow	使用与输入参数相同的数据类型计算数值的总和。如果总和超过该数据类型的最大值，则按溢出方式进行计算。
theilsU	`theilsU` 函数计算 Theils' U 不确定性系数，该系数用于度量表中两列之间的关联程度。
timeSeriesChangesToGrid	用于在指定网格上对时间序列数据执行类似 PromQL 的 changes 计算的聚合函数。
timeSeriesDeltaToGrid	用于在指定网格上对时间序列数据执行类似 PromQL 的 delta 计算的聚合函数。
timeSeriesDerivToGrid	用于在指定网格上对时间序列数据计算类似 PromQL 的导数的聚合函数。
timeSeriesGroupArray	按时间戳升序对时间序列进行排序。
timeSeriesInstantDeltaToGrid	用于在指定网格上对时间序列数据计算类似 PromQL 的 idelta 的聚合函数。
timeSeriesInstantRateToGrid	用于在指定网格上对时间序列数据执行类似 PromQL 的 irate 计算的聚合函数。
timeSeriesLastTwoSamples	用于对时间序列数据进行重采样，以支持计算类似 PromQL 的 irate 和 idelta 的聚合函数
timeSeriesPredictLinearToGrid	用于在指定网格上对时间序列数据进行类似 PromQL 的线性预测计算的聚合函数。
timeSeriesRateToGrid	用于在指定网格上对时间序列数据计算类似 PromQL 的 rate 的聚合函数。
timeSeriesResampleToGridWithStaleness	用于在指定网格上对时间序列数据进行重采样的聚合函数。
timeSeriesResetsToGrid	用于在指定网格上对时间序列数据计算类似 PromQL 的重置次数的聚合函数。
topK	返回一个数组，其中包含指定列中出现频率近似最高的值。结果数组按这些值的近似出现频率降序排列（而不是按值本身排序）。
topKWeighted	返回一个数组，其中包含指定列中近似出现频率最高的值。结果数组按值的近似出现频率降序排列（而不是按值本身排序）。此外，还会考虑每个值的权重。
uniq	计算参数不同取值的大致个数。
uniqCombined	计算不同参数取值的近似数量。
uniqCombined64	计算不同参数取值的近似数量。与 uniqCombined 相同，但对所有数据类型都使用 64 位哈希，而不仅仅是对 String 类型使用。
uniqExact	计算不同参数取值的精确数量。
uniqHLL12	使用 HyperLogLog 算法计算不同参数取值的近似数量。
uniqTheta	使用 Theta Sketch Framework 计算不同参数取值的近似数量。
varPop	计算总体方差。
varPopStable	返回总体方差。与 varPop 不同，该函数采用数值更稳定的算法。虽然计算速度较慢，但计算误差更小。
varSamp	计算一组数据的样本方差。
varSampStable	计算一组数据的样本方差。与 `varSamp` 不同，此函数使用数值稳定的算法。虽然运行速度较慢，但计算误差更小。
welchTTest	对来自两个总体的样本执行 Welch t 检验。