集約関数
ClickHouseは、すべての標準SQL集約関数(sum、avg、min、max、count)をサポートしており、さらにさまざまな他の集約関数も利用できます。
ページ | 説明 |
---|---|
intervalLengthSum | すべての範囲(数値軸上のセグメント)の和を計算します。 |
median | median* 関数は、対応する quantile* 関数のエイリアスです。数値データサンプルの中央値を計算します。 |
welchTTest | 2つの母集団からのサンプルにWelchのt検定を適用します。 |
groupArrayMovingSum | 入力値の移動合計を計算します。 |
groupBitmapAnd | ビットマップカラムのANDを計算し、UInt64型の基数を返します。サフィックス -State を追加した場合は、ビットマップオブジェクトを返します。 |
topKWeighted | 指定されたカラムの約最頻値の配列を返します。結果の配列は、値自体ではなく、値の近似度順にソートされています。さらに、値の重みも考慮されます。 |
distinctJSONPaths | JSONカラムに保存されている異なるパスのリストを計算します。 |
kolmogorovSmirnovTest | 2つの母集団からのサンプルにKolmogorov-Smirnov検定を適用します。 |
quantileExactWeightedInterpolated | 各要素の重みを考慮して、線形補間を使用して数値データシーケンスの分位数を計算します。 |
largestTriangleThreeBuckets | 入力データにLargest-Triangle-Three-Bucketsアルゴリズムを適用します。 |
approx_top_sum | 指定されたカラムの約最頻値とそのカウントの配列を返します。 |
covarSamp | Σ((x - x̅)(y - y̅)) / (n - 1) の値を計算します。 |
groupBitmapOr | ビットマップカラムのORを計算し、UInt64型の基数を返します。サフィックス -State を追加した場合はビットマップオブジェクトを返します。これは groupBitmapMerge と等価です。 |
varSamp | データセットの標本分散を計算します。 |
cramersVBiasCorrected | Cramer's Vを計算しますが、バイアス補正を使用します。 |
quantiles Functions | quantiles, quantilesExactExclusive, quantilesExactInclusive, quantilesGK |
anyLast | カラムの最後に出現した値を選択します。 |
corrStable | ピアソン相関係数を計算しますが、数値的に安定したアルゴリズムを使用します。 |
stddevPopStable | 結果はvarPopの平方根に等しいです。stddevPopとは異なり、この関数は数値的に安定したアルゴリズムを使用します。 |
maxIntersections | 集約関数で、インターバルのグループが互いに交差する最大回数を計算します(すべてのインターバルが少なくとも一度交差する場合)。 |
flameGraph | スタックトレースのリストを使用してフレームグラフを構築する集約関数です。 |
min | 値のグループに対して最小値を計算する集約関数です。 |
sumMapWithOverflow | key 配列で指定されたキーに従って value 配列を合計します。並べ替えられた順序のキーと、対応するキーの合計値の2つの配列のタプルを返します。合計オーバーフローを行うため、sumMap関数とは異なります。 |
uniq | 引数の異なる値の数を近似的に計算します。 |
quantileTDigest | t-digestアルゴリズムを使用して、数値データシーケンスの近似分位数を計算します。 |
groupArrayMovingAvg | 入力値の移動平均を計算します。 |
rankCorr | ランク相関係数を計算します。 |
covarSampStable | covarSampに似ていますが、計算エラーが小さくなりますが動作は遅くなります。 |
avgWeighted | 加重算術平均を計算します。 |
skewSamp | シーケンスの標本歪度を計算します。 |
groupArrayInsertAt | 指定された位置に値を配列に挿入します。 |
entropy | 値のカラムのシャノンエントロピーを計算します。 |
uniqTheta | Theta Sketch Frameworkを使用し、異なる引数値の近似数を計算します。 |
quantileDeterministic | 数値データシーケンスの近似分位数を計算します。 |
simpleLinearRegression | 単純(一次元)線形回帰を実行します。 |
covarPop | 母集団の共分散を計算します。 |
groupBitmapXor | ビットマップカラムのXORを計算し、UInt64型の基数を返します。サフィックス -State を追加した場合は、ビットマップオブジェクトを返します。 |
maxMap | key 配列に指定されたキーに従って、value 配列から最大値を計算します。 |
varPopStable | 母集団分散を返します。varPopとは違い、この関数は数値的に安定したアルゴリズムを使用します。動作は遅くなりますが、計算誤差は小さくなります。 |
avg | 算術平均を計算します。 |
kurtPop | シーケンスの尖度を計算します。 |
aggThrow | この関数は、例外安全性をテストする目的で使用できます。指定した確率で作成時に例外をスローします。 |
argMin | 最小のval 値のための arg 値を計算します。同じ val が最大の行が複数ある場合、関連付けられた arg のどれが返されるかは決定論的ではありません。 |
first_value | any に対するエイリアスですが、ウィンドウ関数との互換性のために導入されました。時には NULL 値を処理する必要があるからです(デフォルトではすべてのClickHouse集約関数はNULL値を無視します)。 |
sumKahan | Kahan補正合計アルゴリズムを使用して数値の合計を計算します。 |
count | 行または非NULL値の数をカウントします。 |
deltaSumTimestamp | 連続する行の差を加えます。差が負の場合は無視されます。 |
studentTTest | 2つの母集団からのサンプルに対してStudentのt検定を適用します。 |
sumWithOverflow | 数の合計を計算し、結果のデータ型は入力パラメータと同じ型になります。合計がこのデータ型の最大値を超えた場合は、オーバーフローで計算されます。 |
sum | 合計を計算します。数値にのみ機能します。 |
boundingRatio | 集約関数で、値のグループ間の最左ポイントと最右ポイントの間の傾きを計算します。 |
uniqExact | 異なる引数値の正確な数を計算します。 |
exponentialTimeDecayedCount | 時間インデックスt における時間シリーズの累積指数減衰を返します。 |
sumCount | 数の合計を計算し、同時に行の数もカウントします。この関数はClickHouseクエリオプティマイザによって使用されます。クエリに複数の sum 、count 、または avg 関数がある場合、計算を再利用するために単一の sumCount 関数に置き換えられます。この関数は明示的に使用されることは稀です。 |
varSampStable | データセットの標本分散を計算します。varSamp とは異なり、この関数は数値的に安定したアルゴリズムを使用します。動作は遅くなりますが、計算誤差は小さくなります。 |
topK | 指定されたカラムの約最頻値の配列を返します。結果の配列は値の近似度順に降順でソートされます(値自体ではなく)。 |
maxIntersectionsPosition | maxIntersections関数の出現位置を計算する集約関数です。 |
stddevSampStable | 結果はvarSampの平方根に等しいです。数値的に安定したアルゴリズムをこの関数は使用します。 |
varPop | 母集団分散を計算します。 |
quantileExactWeighted | 各要素の重みを考慮して、数値データシーケンスの分位数を正確に計算します。 |
covarPopMatrix | N変数にわたる母集団共分散行列を返します。 |
sparkbar | この関数は、値 x の頻度ヒストグラムと、これらの値の繰り返し頻度 y を [min_x, max_x] の間でプロットします。 |
contingency | contingency 関数は、2つのテーブルのカラム間の関連性を測定する値であるコンティンジェンシー係数を計算します。計算は cramersV 関数に類似していますが、平方根で使用される分母が異なります。 |
stochasticLinearRegression | この関数は確率的線形回帰を実装します。学習率、L2正則化係数、ミニバッチサイズのカスタムパラメータをサポートしており、重みを更新するためのいくつかのメソッド(Adam、単純SGD、モーメンタム、ネステロフ)があります。 |
analysisOfVariance | 一元配置分散分析(ANOVA検定)のための統計的検定を提供します。通常分布した複数のグループの観察結果について、すべてのグループが同じ平均値を持つかどうかを調べるテストです。 |
groupConcat | グループの文字列から改行区切りの文字列を計算し、必要に応じて区切り記号で分け、最大要素数で制限できます。 |
exponentialTimeDecayedMax | 時点t における指標 t-1 での計算された指数移動平均の最大値を返します。 |
any | カラムの最初に出現した値を選択します。 |
covarSampMatrix | N変数にわたる標本共分散行列を返します。 |
groupArrayLast | 最後の引数値の配列を作成します。 |
singleValueOrNull | 集約関数 singleValueOrNull は、サブクエリ演算子(例えば x = ALL (SELECT ...) )を実装するために使用されます。データ内に一意の非NULL値が1つだけあるかどうかを確認します。 |
theilsU | theilsU 関数は、テーブル内の2つのカラム間の関連性を測定する値であるテイルのU不確実性係数を計算します。 |
cramersV | cramersV 関数の結果は0から1の範囲で変動し、変数間に関連性がない場合は0、完全に決定されている場合は1になります。これは、二つの変数間の関連性をその最大の可能な変動の割合で示すことができます。 |
last_value | 最後に出現した値を選択します。これは anyLast と似ていますが、NULLも受け入れることができます。 |
quantileTiming | 決定された精度で数値データシーケンスの分位数を計算します。 |
groupBitmap | 符号なし整数カラムからのビットマップまたは集約計算を行い、UInt64型の基数を返します。サフィックス -State を追加した場合はビットマップオブジェクトを返します。 |
minMap | key 配列に指定されたキーに従って、value 配列から最小値を計算します。 |
exponentialTimeDecayedAvg | 時点t における時間系列の値の指数移動平均の重み付き合計を返します。 |
skewPop | シーケンスの歪度を計算します。 |
mannWhitneyUTest | 2つの母集団についてマン・ホイットニー順位検定を適用します。 |
quantileGK | Greenwald-Khannaアルゴリズムを使用して数値データシーケンスの分位数を計算します。 |
groupArrayIntersect | 指定された配列の交差を返します(すべての指定された配列に含まれる配列のすべての項目を返します)。 |
groupArraySample | 引数値のサンプル配列を作成します。結果として得られる配列のサイズは max_size 要素に制限されています。引数値はランダムに選択され、配列に追加されます。 |
stddevSamp | 結果はvarSampの平方根に等しいです。 |
quantile | 数値データシーケンスの近似分位数を計算します。 |
groupArray | 引数値の配列を作成します。値は任意の(不確定な)順序で配列に追加できます。 |
exponentialTimeDecayedSum | 時点t における時間シリーズの指数移動平均値の合計を返します。 |
categoricalInformationValue | 各カテゴリーに対して (P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0))) の値を計算します。 |
corr | ピアソン相関係数を計算します。 |
approx_top_k | 指定されたカラムの約最頻値とそのカウントの配列を返します。 |
corrMatrix | N変数にわたる相関行列を計算します。 |
quantileDD | 相対誤差保証を持つサンプルの近似分位数を計算します。 |
anyHeavy | ヘビーヒッターアルゴリズムを使用して頻繁に発生する値を選択します。クエリの実行スレッドの各々で半分以上のケースで発生する値があれば、その値が返されます。通常、結果は非決定論的です。 |
quantileBFloat16 | bfloat16数から構成されるサンプルの近似分位数を計算します。 |
max | 値のグループに対して最大値を計算する集約関数です。 |
groupBitXor | 数値のシリーズに対してビット単位の XOR を適用します。 |
quantileTimingWeighted | 決定された精度で、各シーケンスメンバーの重みに基づいて数値データシーケンスの分位数を計算します。 |
quantileInterpolatedWeighted | 線形補間を使用して数値データシーケンスの分位数を計算し、各要素の重みを考慮します。 |
stddevPop | 結果はvarPopの平方根に等しいです。 |
uniqCombined | 異なる引数値の近似数を計算します。 |
covarPopStable | 母集団の共分散の値を計算します。 |
argMax | 最大の val 値のための arg 値を計算します。 |
groupBitOr | 数値のシリーズに対してビット単位の OR を適用します。 |
quantileTDigestWeighted | t-digestアルゴリズムを使用して、数値データシーケンスの近似分位数を計算します。 |
distinctDynamicTypes | Dynamicカラムに保存されている異なるデータ型のリストを計算します。 |
sumMap | key 配列に指定されたキーに従って value 配列を合計します。オーバーフローなしで、対応するキーに対して合計された値を持つ2つの配列のタプルを返します。 |
kurtSamp | シーケンスの標本尖度を計算します。 |
stochasticLogisticRegression | この関数は確率的ロジスティック回帰を実装しています。バイナリ分類問題に使用でき、確率的線形回帰と同じカスタムパラメータをサポートし、同じ方法で動作します。 |
exponentialMovingAverage | 決定された時間の値の指数移動平均を計算します。 |
uniqCombined64 | 異なる引数値の近似数を計算します。これはuniqCombinedと同じですが、Stringデータタイプだけではなく、すべてのデータタイプに対して64ビットハッシュを使用します。 |
meanZTest | 2つの母集団のサンプルに対して平均z検定を適用します。 |
uniqHLL12 | HyperLogLogアルゴリズムを使用して異なる引数値の近似数を計算します。 |
groupArrayArray | 配列をこれらの配列のより大きな配列に集約します。 |
groupUniqArray | 異なる引数値から配列を作成します。 |
groupBitAnd | 数値のシリーズに対してビット単位の AND を適用します。 |
deltaSum | 連続する行間の算術の差を合計します。 |
groupArraySorted | 最初のN項目を昇順で持つ配列を返します。 |
quantileExact Functions | quantileExact, quantileExactLow, quantileExactHigh, quantileExactExclusive, quantileExactInclusive 関数 |