NumericIndexedVector

NumericIndexedVector 是一种抽象数据结构，它封装了向量，并实现向量聚合和按元素运算。Bit-Sliced Index 是其存储方式。关于理论基础和使用场景，请参考论文 Large-Scale Metric Computation in Online Controlled Experiment Platform。

BSI

在 BSI（Bit-Sliced Index，位切片索引）存储方式中，数据首先以 Bit-Sliced Index 形式存储，然后再使用 Roaring Bitmap 进行压缩。聚合运算和逐点运算可以直接在压缩数据上执行，从而显著提升存储与查询效率。

一个向量包含索引及其对应的值。以下是该数据结构在 BSI 存储模式下的一些特性与约束：

索引类型可以是 UInt8、UInt16 或 UInt32 之一。注意： 考虑到 Roaring Bitmap 的 64 位实现性能，BSI 格式不支持 UInt64/Int64。
值类型可以是 Int8、Int16、Int32、Int64、UInt8、UInt16、UInt32、UInt64、Float32 或 Float64 之一。注意： 值类型不会自动提升。例如，如果你使用 UInt8 作为值类型，任何超过 UInt8 容量的求和结果都会发生溢出，而不会自动提升为更高精度类型；同样，整数运算将产生整数结果（例如除法不会自动转换为浮点结果）。因此，提前规划和设计值类型非常重要。在实际场景中，通常使用浮点类型（Float32/Float64）。
只有索引类型和值类型都相同的两个向量才能进行运算。
底层存储使用 Bit-Sliced Index，其中位图用于存储索引。Roaring Bitmap 被用作位图的具体实现。最佳实践是尽可能将索引集中到少数几个 Roaring Bitmap 容器中，以最大化压缩率和查询性能。
Bit-Sliced Index 机制会将值转换为二进制。对于浮点类型，会使用定点表示进行转换，这可能导致精度损失。可以通过自定义用于小数部分的位数来调整精度，默认是 24 位，这在大多数场景下已经足够。在使用带有 -State 的聚合函数 groupNumericIndexedVector 构建 NumericIndexedVector 时，可以自定义整数位数和小数位数。
索引的取值情况有三种：非零值、零值和不存在。在 NumericIndexedVector 中，只会存储非零值和零值。此外，在两个 NumericIndexedVector 之间进行逐点运算时，不存在的索引的值会被视为 0。在除法场景下，当除数为 0 时结果为 0。

创建 numericIndexedVector 对象

有两种方式可以创建这种结构：一种是使用聚合函数 groupNumericIndexedVector 的 -State 变体。你可以添加后缀 -if 以接收一个额外的条件。聚合函数只会处理满足该条件的行。另一种方式是使用 numericIndexedVectorBuild 从一个 map 构建它。 groupNumericIndexedVectorState 函数允许通过参数自定义整数位和小数位的数量，而 numericIndexedVectorBuild 则不支持。

groupNumericIndexedVector

从两列数据构造一个 NumericIndexedVector，并以 Float64 类型返回所有值之和。如果添加后缀 State，则返回一个 NumericIndexedVector 对象。

语法

groupNumericIndexedVectorState(col1, col2)
groupNumericIndexedVectorState(type, integer_bit_num, fraction_bit_num)(col1, col2)

参数

type：字符串，可选。指定存储格式。目前仅支持 'BSI'。
integer_bit_num：UInt32，可选。在 'BSI' 存储格式下生效，该参数表示整数部分使用的位数。当索引类型为整数类型时，默认值对应于存储该索引类型所需的位数。例如，如果索引类型为 UInt16，则默认的 integer_bit_num 为 16。对于 Float32 和 Float64 索引类型，integer_bit_num 的默认值为 40，因此可表示的数据整数部分范围为 [-2^39, 2^39 - 1]。合法范围为 [0, 64]。
fraction_bit_num：UInt32，可选。在 'BSI' 存储格式下生效，该参数表示小数部分使用的位数。当值类型为整数时，默认值为 0；当值类型为 Float32 或 Float64 时，默认值为 24。合法范围为 [0, 24]。
另有约束：integer_bit_num + fraction_bit_num 的有效范围为 [0, 64]。
col1：索引列。支持的类型：UInt8/UInt16/UInt32/Int8/Int16/Int32。
col2：数值列。支持的类型：Int8/Int16/Int32/Int64/UInt8/UInt16/UInt32/UInt64/Float32/Float64。

返回值

一个 Float64 值，表示所有数值的和。

示例

测试数据：

UserID  PlayTime
1       10
2       20
3       30

查询与结果：

SELECT groupNumericIndexedVector(UserID, PlayTime) AS num FROM t;
┌─num─┐
│  60 │
└─────┘

SELECT groupNumericIndexedVectorState(UserID, PlayTime) as res, toTypeName(res), numericIndexedVectorAllValueSum(res) FROM t;
┌─res─┬─toTypeName(res)─────────────────────────────────────────────┬─numericIndexedVectorAllValueSum(res)──┐
│     │ AggregateFunction(groupNumericIndexedVector, UInt8, UInt8)  │ 60                                    │
└─────┴─────────────────────────────────────────────────────────────┴───────────────────────────────────────┘

SELECT groupNumericIndexedVectorStateIf(UserID, PlayTime, day = '2025-04-22') as res, toTypeName(res), numericIndexedVectorAllValueSum(res) FROM t;
┌─res─┬─toTypeName(res)────────────────────────────────────────────┬─numericIndexedVectorAllValueSum(res)──┐
│     │ AggregateFunction(groupNumericIndexedVector, UInt8, UInt8) │ 30                                    │
└─────┴────────────────────────────────────────────────────────────┴───────────────────────────────────────┘

SELECT groupNumericIndexedVectorStateIf('BSI', 32, 0)(UserID, PlayTime, day = '2025-04-22') as res, toTypeName(res), numericIndexedVectorAllValueSum(res) FROM t;
┌─res─┬─toTypeName(res)──────────────────────────────────────────────────────────┬─numericIndexedVectorAllValueSum(res)──┐
│     │ AggregateFunction('BSI', 32, 0)(groupNumericIndexedVector, UInt8, UInt8) │ 30                                    │
└─────┴──────────────────────────────────────────────────────────────────────────┴───────────────────────────────────────┘

注意

以下文档内容由 system.functions 系统表生成。

numericIndexedVectorAllValueSum

自 v25.7.0 起引入

返回 numericIndexedVector 中所有值的总和。

语法

numericIndexedVectorAllValueSum(v)

参数

v — numericIndexedVector

返回值

返回总和。Float64

示例

使用示例

SELECT numericIndexedVectorAllValueSum(numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30]))) AS res;

┌─res─┐
│  60 │
└─────┘

numericIndexedVectorBuild

引入版本：v25.7.0

从 map 创建一个 NumericIndexedVector。map 中的键表示向量的索引，值表示向量的数值。

语法

numericIndexedVectorBuild(map)

参数

map — 从索引到值的映射关系。Map

返回值

返回一个 NumericIndexedVector 对象。AggregateFunction

示例

用法示例

SELECT numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30])) AS res, toTypeName(res);

┌─res─┬─toTypeName(res)────────────────────────────────────────────┐
│     │ AggregateFunction(groupNumericIndexedVector, UInt8, UInt8) │
└─────┴────────────────────────────────────────────────────────────┘

numericIndexedVectorCardinality

引入版本：v25.7.0

返回 numericIndexedVector 的基数（唯一索引的数量）。

语法

numericIndexedVectorCardinality(v)

参数

v — numericIndexedVector

返回值

返回唯一索引的个数。UInt64

示例

用法示例

SELECT numericIndexedVectorCardinality(numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30]))) AS res;

┌─res─┐
│  3  │
└─────┘

numericIndexedVectorGetValue

自 v25.7.0 起可用

从 numericIndexedVector 中检索指定索引对应的值。

语法

numericIndexedVectorGetValue(v, i)

参数

v — numericIndexedVector
i — 要获取其值的索引。(U)Int*

返回值

返回一个数值，其类型与 NumericIndexedVector 的值类型相同。(U)Int* 或 Float*

示例

使用示例

SELECT numericIndexedVectorGetValue(numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30])), 3) AS res;

┌─res─┐
│  30 │
└─────┘

numericIndexedVectorPointwiseAdd

引入版本：v25.7.0

对 numericIndexedVector 与另一个 numericIndexedVector 或数值常量逐元素相加。

语法

numericIndexedVectorPointwiseAdd(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

WITH
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toInt32(x), [10, 20, 30]))) AS vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toInt32(x), [10, 20, 30]))) AS vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseAdd(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseAdd(vec1, 2)) AS res2;

┌─res1──────────────────┬─res2─────────────┐
│ {1:10,2:30,3:50,4:30} │ {1:12,2:22,3:32} │
└───────────────────────┴──────────────────┘

numericIndexedVectorPointwiseDivide

引入版本：v25.7.0

在一个 numericIndexedVector 与另一个 numericIndexedVector 或数值常量之间执行按元素除法运算。

语法

numericIndexedVectorPointwiseDivide(v1, v2)

参数

v1 — numericIndexedVector
v2 — 数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseDivide(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseDivide(vec1, 2)) AS res2;

┌─res1────────┬─res2────────────┐
│ {2:2,3:1.5} │ {1:5,2:10,3:15} │
└─────────────┴─────────────────┘

numericIndexedVectorPointwiseEqual

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行逐元素比较。结果返回一个 numericIndexedVector，其中包含所有值相等的位置索引，并将这些位置上的值全部设为 1。

语法

numericIndexedVectorPointwiseEqual(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 20, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseEqual(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseEqual(vec1, 20)) AS res2;

┌─res1──┬─res2──┐
│ {2:1} │ {2:1} │
└───────┴───────┘

numericIndexedVectorPointwiseGreater

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行逐元素比较。结果是一个 numericIndexedVector，其中包含第一个向量的值大于第二个向量的值的索引位置，且这些位置上的所有对应值都被设为 1。

语法

numericIndexedVectorPointwiseGreater(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值型常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 50]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 40, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseGreater(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseGreater(vec1, 20)) AS res2;

┌─res1──────┬─res2──┐
│ {1:1,3:1} │ {3:1} │
└───────────┴───────┘

numericIndexedVectorPointwiseGreaterEqual

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行按元素比较。结果是一个 numericIndexedVector，其中包含第一个向量中值大于或等于第二个向量中对应值的索引位置，并将所有这些位置上的值设为 1。

语法

numericIndexedVectorPointwiseGreaterEqual(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 50]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 40, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseGreaterEqual(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseGreaterEqual(vec1, 20)) AS res2;

┌─res1──────────┬─res2──────┐
│ {1:1,2:1,3:1} │ {2:1,3:1} │
└───────────────┴───────────┘

numericIndexedVectorPointwiseLess

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行逐元素比较运算。结果返回一个 numericIndexedVector，其中包含第一个向量的值小于第二个向量的值的索引位置，且所有对应的值都被设置为 1。

语法

numericIndexedVectorPointwiseLess(v1, v2)

参数

v1 — numericIndexedVector
v2 — 数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 40, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseLess(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseLess(vec1, 20)) AS res2;

┌─res1──────┬─res2──┐
│ {3:1,4:1} │ {1:1} │
└───────────┴───────┘

numericIndexedVectorPointwiseLessEqual

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量进行逐元素比较。结果是一个 numericIndexedVector，其中包含第一个向量中值小于或等于第二个向量对应值的位置索引，这些位置上的所有值都被设置为 1。

语法

numericIndexedVectorPointwiseLessEqual(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象，类型为 (U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 40, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseLessEqual(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseLessEqual(vec1, 20)) AS res2;

┌─res1──────────┬─res2──────┐
│ {2:1,3:1,4:1} │ {1:1,2:1} │
└───────────────┴───────────┘

numericIndexedVectorPointwiseMultiply

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或数值常量执行按元素乘法运算。

语法

numericIndexedVectorPointwiseMultiply(v1, v2)

参数

v1 — numericIndexedVector
v2 — 数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toInt32(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toInt32(x), [10, 20, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseMultiply(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseMultiply(vec1, 2)) AS res2;

┌─res1──────────┬─res2─────────────┐
│ {2:200,3:600} │ {1:20,2:40,3:60} │
└───────────────┴──────────────────┘

numericIndexedVectorPointwiseNotEqual

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行逐元素比较。结果是一个 numericIndexedVector，包含值不相等的索引位置，并将这些索引位置上的值全部设为 1。

语法

numericIndexedVectorPointwiseNotEqual(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

with
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toFloat64(x), [10, 20, 30]))) as vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toFloat64(x), [20, 20, 30]))) as vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseNotEqual(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseNotEqual(vec1, 20)) AS res2;

┌─res1──────────┬─res2──────┐
│ {1:1,3:1,4:1} │ {1:1,3:1} │
└───────────────┴───────────┘

numericIndexedVectorPointwiseSubtract

引入版本：v25.7.0

对一个 numericIndexedVector 与另一个 numericIndexedVector 或一个数值常量执行逐元素相减运算。

语法

numericIndexedVectorPointwiseSubtract(v1, v2)

参数

v1 — numericIndexedVector
v2 — 一个数值常量或 numericIndexedVector 对象。(U)Int* 或 Float* 或 numericIndexedVector

返回值

返回一个新的 numericIndexedVector 对象。numericIndexedVector

示例

用法示例

WITH
    numericIndexedVectorBuild(mapFromArrays([1, 2, 3], arrayMap(x -> toInt32(x), [10, 20, 30]))) AS vec1,
    numericIndexedVectorBuild(mapFromArrays([2, 3, 4], arrayMap(x -> toInt32(x), [10, 20, 30]))) AS vec2
SELECT
    numericIndexedVectorToMap(numericIndexedVectorPointwiseSubtract(vec1, vec2)) AS res1,
    numericIndexedVectorToMap(numericIndexedVectorPointwiseSubtract(vec1, 2)) AS res2;

┌─res1───────────────────┬─res2────────────┐
│ {1:10,2:10,3:10,4:-30} │ {1:8,2:18,3:28} │
└────────────────────────┴─────────────────┘

numericIndexedVectorShortDebugString

自 v25.7.0 引入

以 JSON 格式返回 numericIndexedVector 的内部信息。此函数主要用于调试。

语法

numericIndexedVectorShortDebugString(v)

参数

v — numericIndexedVector

返回值

返回包含调试信息的 JSON 字符串。String

示例

使用示例

SELECT numericIndexedVectorShortDebugString(numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30]))) AS res\G;

Row 1:
──────
res: {"vector_type":"BSI","index_type":"char8_t","value_type":"char8_t","integer_bit_num":8,"fraction_bit_num":0,"zero_indexes_info":{"cardinality":"0"},"non_zero_indexes_info":{"total_cardinality":"3","all_value_sum":60,"number_of_bitmaps":"8","bitmap_info":{"cardinality":{"0":"0","1":"2","2":"2","3":"2","4":"2","5":"0","6":"0","7":"0"}}}}

numericIndexedVectorToMap

引入版本：v25.7.0

将 numericIndexedVector 转换为 map。

语法

numericIndexedVectorToMap(v)

参数

v — numericIndexedVector

返回值

返回一个包含索引-值对的 Map 映射。Map

示例

用法示例

SELECT numericIndexedVectorToMap(numericIndexedVectorBuild(mapFromArrays([1, 2, 3], [10, 20, 30]))) AS res;

┌─res──────────────┐
│ {1:10,2:20,3:30} │
└──────────────────┘

BSI​

创建 numericIndexedVector 对象​

groupNumericIndexedVector​

numericIndexedVectorAllValueSum​

numericIndexedVectorBuild​

numericIndexedVectorCardinality​

numericIndexedVectorGetValue​

numericIndexedVectorPointwiseAdd​

numericIndexedVectorPointwiseDivide​

numericIndexedVectorPointwiseEqual​

numericIndexedVectorPointwiseGreater​

numericIndexedVectorPointwiseGreaterEqual​

numericIndexedVectorPointwiseLess​

numericIndexedVectorPointwiseLessEqual​

numericIndexedVectorPointwiseMultiply​

numericIndexedVectorPointwiseNotEqual​

numericIndexedVectorPointwiseSubtract​

numericIndexedVectorShortDebugString​

numericIndexedVectorToMap​

BSI

创建 numericIndexedVector 对象

groupNumericIndexedVector

numericIndexedVectorAllValueSum

numericIndexedVectorBuild

numericIndexedVectorCardinality

numericIndexedVectorGetValue

numericIndexedVectorPointwiseAdd

numericIndexedVectorPointwiseDivide

numericIndexedVectorPointwiseEqual

numericIndexedVectorPointwiseGreater

numericIndexedVectorPointwiseGreaterEqual

numericIndexedVectorPointwiseLess

numericIndexedVectorPointwiseLessEqual

numericIndexedVectorPointwiseMultiply

numericIndexedVectorPointwiseNotEqual

numericIndexedVectorPointwiseSubtract

numericIndexedVectorShortDebugString

numericIndexedVectorToMap