在字符串中搜索的函数

本节中的所有函数默认执行区分大小写的搜索。不区分大小写的搜索通常通过单独的函数变体提供。

注意

不区分大小写的搜索遵循英语的大小写规则。例如，在英语中，小写 i 的大写形式是 I，而在土耳其语中则是 İ —— 对于英语以外的语言，结果可能与预期不符。

本节中的函数还假定被搜索的字符串 (在本节中称为 haystack) 和搜索字符串 (称为 needle) 是单字节编码文本。如果不满足这一假设，不会抛出异常，结果未定义。对 UTF-8 编码字符串的搜索通常由单独的函数变体提供。同样地，如果使用了 UTF-8 函数变体而输入字符串不是 UTF-8 编码文本，也不会抛出异常，结果同样未定义。请注意，不会自动执行 Unicode 规范化，但可以使用 normalizeUTF8*() 函数来完成这一操作。

通用字符串函数和字符串替换函数在单独的章节中说明。

注意

下文文档是从 system.functions 系统表生成的。

countMatches

引入版本：v21.1.0

返回字符串中某个正则表达式的匹配次数。

Version dependent behavior

此函数的行为取决于 ClickHouse 版本：

在 < v25.6 的版本中，即使模式允许继续匹配，函数在遇到第一个空匹配时就会停止计数。
在 >= 25.6 的版本中，函数在发生空匹配时会继续执行。可以通过将设置 count_matches_stop_at_empty_match = true 打开来恢复旧的行为；

语法

countMatches(haystack, pattern)

参数

haystack — 要搜索的字符串。String
pattern — 正则表达式模式。String

返回值

返回匹配的数量。UInt64

示例

统计数字序列

SELECT countMatches('hello 123 world 456 test', '[0-9]+')

┌─countMatches('hello 123 world 456 test', '[0-9]+')─┐
│                                                   2 │
└─────────────────────────────────────────────────────┘

countMatchesCaseInsensitive

引入版本：v21.1.0

类似于 countMatches，但进行不区分大小写的匹配。

语法

countMatchesCaseInsensitive(haystack, pattern)

参数

haystack — 要在其中进行搜索的字符串。String
pattern — 正则表达式模式。const String

返回值

返回匹配到的次数。UInt64

示例

不区分大小写的计数

SELECT countMatchesCaseInsensitive('Hello HELLO world', 'hello')

┌─countMatchesCaseInsensitive('Hello HELLO world', 'hello')─┐
│                                                         2 │
└───────────────────────────────────────────────────────────┘

countSubstrings

自 v21.1.0 版本引入。

返回子字符串 needle 在字符串 haystack 中出现的次数。

语法

countSubstrings(haystack, needle[, start_pos])

参数

haystack — 进行搜索的字符串。String 或 Enum。 - needle — 要搜索的子字符串。String。 - start_pos — 在 haystack 中开始搜索的位置 (从 1 开始) 。UInt。可选。

返回值

出现的次数。UInt64

示例

用法示例

SELECT countSubstrings('aaaa', 'aa');

┌─countSubstrings('aaaa', 'aa')─┐
│                             2 │
└───────────────────────────────┘

使用 start_pos 参数

SELECT countSubstrings('abc___abc', 'abc', 4);

┌─countSubstrings('abc___abc', 'abc', 4)─┐
│                                      1 │
└────────────────────────────────────────┘

countSubstringsCaseInsensitive

自 v21.1.0 版本引入

与 countSubstrings 类似，但统计时不区分大小写。

语法

countSubstringsCaseInsensitive(haystack, needle[, start_pos])

参数

haystack — 进行搜索的字符串。String 或 Enum
needle — 要搜索的子串。String
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始) 。UInt*

返回值

返回 needle 在 haystack 中出现的次数。UInt64

示例

用法示例

SELECT countSubstringsCaseInsensitive('AAAA', 'aa');

┌─countSubstri⋯AAA', 'aa')─┐
│                        2 │
└──────────────────────────┘

使用 start_pos 参数

SELECT countSubstringsCaseInsensitive('abc___ABC___abc', 'abc', 4);

┌─countSubstri⋯, 'abc', 4)─┐
│                        2 │
└──────────────────────────┘

countSubstringsCaseInsensitiveUTF8

引入版本：v21.1.0

与 countSubstrings 类似，但以不区分大小写的方式计数，并假定 haystack 是 UTF-8 编码的字符串。

语法

countSubstringsCaseInsensitiveUTF8(haystack, needle[, start_pos])

参数

haystack — 用于执行搜索的 UTF-8 字符串。String 或 Enum
needle — 要搜索的子字符串。String
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始计数) 。UInt*

返回值

返回 needle 在 haystack 中出现的次数。UInt64

示例

用法示例

SELECT countSubstringsCaseInsensitiveUTF8('ложка, кошка, картошка', 'КА');

┌─countSubstri⋯шка', 'КА')─┐
│                        4 │
└──────────────────────────┘

使用 start_pos 参数

SELECT countSubstringsCaseInsensitiveUTF8('ложка, кошка, картошка', 'КА', 13);

┌─countSubstri⋯, 'КА', 13)─┐
│                        2 │
└──────────────────────────┘

extract

引入版本：v1.1.0

在字符串中提取正则表达式的第一个匹配项。如果 'haystack' 与 'pattern' 不匹配，则返回空字符串。

此函数使用 RE2 正则表达式库。有关支持的语法，请参阅 re2。

如果正则表达式包含捕获组 (子模式) ，函数会根据第一个捕获组对输入字符串进行匹配。

语法

extract(haystack, pattern)

参数

haystack — 要从中提取内容的字符串。String
pattern — 正则表达式，通常包含捕获组。const String

返回值

返回提取出的片段，类型为字符串。String

示例

从邮箱地址中提取域名

SELECT extract('test@clickhouse.com', '.*@(.*)$')

┌─extract('test@clickhouse.com', '.*@(.*)$')─┐
│ clickhouse.com                            │
└───────────────────────────────────────────┘

没有匹配时返回空字符串

SELECT extract('test@clickhouse.com', 'no_match')

┌─extract('test@clickhouse.com', 'no_match')─┐
│                                            │
└────────────────────────────────────────────┘

extractAll

引入于：v1.1.0

类似于 extract，但会返回一个数组，包含字符串中与正则表达式匹配的所有结果。如果 'haystack' 与正则表达式 'pattern' 不匹配，则返回空数组。

如果正则表达式包含捕获组 (子模式) ，函数会根据第一个捕获组对输入字符串进行匹配。

语法

extractAll(haystack, pattern)

参数

haystack — 要从中提取片段的字符串。String
pattern — 正则表达式，可以包含捕获组。const String

返回值

返回提取出的片段数组。Array(String)

示例

提取所有数字

SELECT extractAll('hello 123 world 456', '[0-9]+')

┌─extractAll('hello 123 world 456', '[0-9]+')─┐
│ ['123','456']                               │
└─────────────────────────────────────────────┘

使用捕获组提取

SELECT extractAll('test@example.com, user@domain.org', '([a-zA-Z0-9]+)@')

┌─extractAll('test@example.com, user@domain.org', '([a-zA-Z0-9]+)@')─┐
│ ['test','user']                                                    │
└────────────────────────────────────────────────────────────────────┘

extractAllGroupsHorizontal

引入版本：v20.5.0

使用给定的正则表达式匹配字符串中的所有分组，并返回一个由数组构成的数组，其中每个内部数组按分组编号组织，包含同一捕获组的所有捕获结果。

语法

extractAllGroupsHorizontal(s, regexp)

参数

s — 要从中提取的输入字符串。String 或 FixedString
regexp — 用于匹配的正则表达式。const String 或 const FixedString

返回值

返回一个数组的数组，其中每个内部数组包含某个捕获组在所有匹配结果中的所有捕获内容。第一个内部数组包含第 1 个捕获组的所有捕获内容，第二个内部数组包含第 2 个捕获组的所有捕获内容，依此类推。如果未找到匹配，则返回空数组。Array(Array(String))

示例

用法示例

WITH '< Server: nginx
< Date: Tue, 22 Jan 2019 00:26:14 GMT
< Content-Type: text/html; charset=UTF-8
< Connection: keep-alive
' AS s
SELECT extractAllGroupsHorizontal(s, '< ([\\w\\-]+): ([^\\r\\n]+)');

[['Server','Date','Content-Type','Connection'],['nginx','Tue, 22 Jan 2019 00:26:14 GMT','text/html; charset=UTF-8','keep-alive']]

extractGroups

引入版本：v20.5.0

从正则表达式匹配到的第一个子串中提取捕获组。要从所有匹配中提取捕获组，请使用 extractAllGroupsHorizontal 或 extractAllGroupsVertical。

语法

extractGroups(s, regexp)

参数

s — 要从中提取的输入字符串。String 或 FixedString
regexp — 正则表达式。必须至少包含一个捕获组。常量值。const String 或 const FixedString

返回值

如果正则表达式匹配，则返回一个数组，其中包含首次匹配中捕获的各组 (从 1 到 N，其中 N 是 regexp 中捕获组的数量) 。如果没有匹配，则返回空数组。Array(String)

示例

使用示例

WITH '< Server: nginx
< Date: Tue, 22 Jan 2019 00:26:14 GMT
< Content-Type: text/html; charset=UTF-8
< Connection: keep-alive
' AS s
SELECT extractGroups(s, '< ([\\w\\-]+): ([^\\r\\n]+)');

['Server','nginx']

hasAllTokens

引入版本：v25.10.0

与 hasAnyTokens 类似，但当 needle 字符串或数组中的所有标记都与 input 字符串匹配时返回 1，否则返回 0。如果 input 是列，则返回满足此条件的所有行。

注意

为获得最佳性能,应为列 input 定义 text index。如果未定义 text index,该函数会对整列执行全列扫描,其速度会比索引查找慢多个数量级。

在搜索之前,函数会对以下内容进行分词(tokenize):

input 参数 (始终如此) ，以及
needle 参数 (如果以 String 形式给出) ，使用为该 text index 指定的分词器。如果该列未定义 text index，则改用 splitByNonAlpha 分词器。如果 needle 参数的类型为 Array(String)，则数组中的每个元素都被视为一个标记——不会进行额外的分词。

重复的标记会被忽略。例如,needles = ['ClickHouse', 'ClickHouse'] 与 ['ClickHouse'] 的处理方式相同。

注意

当 text index 定义了 preprocessor (例如 lowerUTF8) 时，hasAllTokens 会在分词之前将其应用于 input，并且当 needles 为 String 时，也会将其应用于 needles。当 needles 为 Array(String) 时，其元素会按原样传递，不会对其应用 preprocessor。 preprocessor 仅在 text index 路径上应用，因此，使用 text index 的查询与不使用 text index 的查询之间，结果可能会有所不同 (例如 SETTINGS use_skip_indexes = 0) 。允许这种不一致性是为了提高 full-text search 的可用性。

语法

hasAllTokens(input, needles)

别名: hasAllToken

参数

input — 输入列。String 或 FixedString 或 Array(String) 或 Array(FixedString)
needles — 要搜索的标记。String 或 Array(String)
tokenizer — 要使用的分词器。有效参数包括 splitByNonAlpha、splitByString、asciiCJK、ngrams、sparseGrams 和 array。可选参数，如果未显式设置，则默认为 splitByNonAlpha。const String

返回值

如果所有 needle 都匹配则返回 1，否则返回 0。UInt8

示例

使用字符串 needle 的基本用法

CREATE TABLE table (
    id UInt32,
    msg String,
    INDEX idx(msg) TYPE text(tokenizer = splitByString(['()', '\\']))
)
ENGINE = MergeTree
ORDER BY id;

INSERT INTO table VALUES (1, '()a,\\bc()d'), (2, '()\\a()bc\\d'), (3, ',()a\\,bc,(),d,');

SELECT count() FROM table WHERE hasAllTokens(msg, 'a\\d()');

┌─count()─┐
│       1 │
└─────────┘

在数组中指定按原样 (不进行分词) 匹配的搜索词

SELECT count() FROM table WHERE hasAllTokens(msg, ['a', 'd']);

┌─count()─┐
│       1 │
└─────────┘

使用 tokens 函数生成待查找的标记

SELECT count() FROM table WHERE hasAllTokens(msg, tokens('a()d', 'splitByString', ['()', '\\']));

┌─count()─┐
│       1 │
└─────────┘

通过第 3 个参数使用自定义分词器

SELECT hasAllTokens('abcdef', 'abc', 'ngrams(3)');

┌─hasAllTokens('abcdef', 'abc', 'ngrams(3)')─┐
│                                            1 │
└──────────────────────────────────────────────┘

数组和 Map 列的用法示例

CREATE TABLE log (
    id UInt32,
    tags Array(String),
    attributes Map(String, String),
    INDEX idx_tags (tags) TYPE text(tokenizer = splitByNonAlpha),
    INDEX idx_attributes_keys mapKeys(attributes) TYPE text(tokenizer = array),
    INDEX idx_attributes_vals mapValues(attributes) TYPE text(tokenizer = array)
)
ENGINE = MergeTree
ORDER BY id;

INSERT INTO log VALUES
    (1, ['clickhouse', 'clickhouse cloud'], {'address': '192.0.0.1', 'log_level': 'INFO'}),
    (2, ['chdb'], {'embedded': 'true', 'log_level': 'DEBUG'});

数组列示例

SELECT count() FROM log WHERE hasAllTokens(tags, 'clickhouse');

┌─count()─┐
│       1 │
└─────────┘

mapKeys 示例

SELECT count() FROM log WHERE hasAllTokens(mapKeys(attributes), ['address', 'log_level']);

┌─count()─┐
│       1 │
└─────────┘

使用 mapValues 的示例

SELECT count() FROM log WHERE hasAllTokens(mapValues(attributes), ['192.0.0.1', 'DEBUG']);

┌─count()─┐
│       0 │
└─────────┘

hasAnyTokens

引入版本：v25.10.0

如果 needle 字符串或数组中至少有一个标记与 input 字符串匹配,则返回 1,否则返回 0。若 input 是一列,则返回所有满足此条件的行。

注意

为获得最佳性能,应为列 input 定义 text 索引。如果未定义 text 索引,该函数会对整列执行暴力扫描,其速度会比使用索引查找慢几个数量级。

在搜索之前,函数会对以下内容进行分词(tokenize):

input 参数 (始终) ，以及
needle 参数 (如果以 String 形式给出) 使用为 text 索引指定的分词器。如果该列未定义 text 索引，则会使用 splitByNonAlpha 分词器。如果 needle 参数的类型为 Array(String)，则数组中的每个元素都被视为一个标记——不会进行额外的分词。

重复的标记会被忽略。例如,['ClickHouse', 'ClickHouse'] 与 ['ClickHouse'] 被视为相同。

注意

当 text 索引定义了预处理器 (例如 lowerUTF8) 时，hasAnyTokens 会在分词前将其应用于 input，以及当 needles 为 String 类型时，也会将其应用于 needles。当 needles 为 Array(String) 类型时，其元素将按原样传递，预处理器不会对其生效。预处理器仅在 text 索引路径上生效，因此使用 text 索引的查询与不使用 text 索引的查询 (例如 SETTINGS use_skip_indexes = 0) 所得结果可能存在差异。这种不一致性是为了提升全文搜索的易用性而有意保留的。

语法

hasAnyTokens(input, needles)

别名: hasAnyToken

参数

input — 输入列。String 或 FixedString 或 Nullable(String) 或 Nullable(FixedString) 或 Array(String) 或 Array(FixedString) 或 Array(Nullable(String)) 或 Array(Nullable(FixedString))
needles — 要搜索的标记 (标记) 。String 或 Array(String)
tokenizer — 要使用的分词器。有效参数包括 splitByNonAlpha、splitByString、asciiCJK、ngrams、sparseGrams 和 array。可选。如果未显式设置，则默认为 splitByNonAlpha。const String

返回值

如果存在至少一个匹配项,则返回 1,否则返回 0。UInt8

示例

使用字符串作为搜索词的基本用法

CREATE TABLE table (
    id UInt32,
    msg String,
    INDEX idx(msg) TYPE text(tokenizer = splitByString(['()', '\\']))
)
ENGINE = MergeTree
ORDER BY id;

INSERT INTO table VALUES (1, '()a,\\bc()d'), (2, '()\\a()bc\\d'), (3, ',()a\\,bc,(),d,');

SELECT count() FROM table WHERE hasAnyTokens(msg, 'a\\d()');

┌─count()─┐
│       3 │
└─────────┘

在数组中指定按原样搜索的 needle (不进行分词)

SELECT count() FROM table WHERE hasAnyTokens(msg, ['a', 'd']);

┌─count()─┐
│       3 │
└─────────┘

使用 tokens 函数生成搜索词

SELECT count() FROM table WHERE hasAnyTokens(msg, tokens('a()d', 'splitByString', ['()', '\\']));

┌─count()─┐
│       3 │
└─────────┘

数组和 Map 列的使用示例

CREATE TABLE log (
    id UInt32,
    tags Array(String),
    attributes Map(String, String),
    INDEX idx_tags (tags) TYPE text(tokenizer = splitByNonAlpha),
    INDEX idx_attributes_keys mapKeys(attributes) TYPE text(tokenizer = array),
    INDEX idx_attributes_vals mapValues(attributes) TYPE text(tokenizer = array)
)
ENGINE = MergeTree
ORDER BY id;

INSERT INTO log VALUES
    (1, ['clickhouse', 'clickhouse cloud'], {'address': '192.0.0.1', 'log_level': 'INFO'}),
    (2, ['chdb'], {'embedded': 'true', 'log_level': 'DEBUG'});

数组列的使用示例

SELECT count() FROM log WHERE hasAnyTokens(tags, 'clickhouse');

┌─count()─┐
│       1 │
└─────────┘

mapKeys 的使用示例

SELECT count() FROM log WHERE hasAnyTokens(mapKeys(attributes), ['address', 'log_level']);

┌─count()─┐
│       2 │
└─────────┘

使用 mapValues 的示例

SELECT count() FROM log WHERE hasAnyTokens(mapValues(attributes), ['192.0.0.1', 'DEBUG']);

┌─count()─┐
│       2 │
└─────────┘

hasPhrase

引入版本：v26.4.0

检查 input 是否按连续顺序包含 phrase 中的所有标记。

注意

为获得最佳性能，列 input 应定义 text index。如果未定义 text index，该函数会执行暴力列扫描，速度会比索引查找慢几个数量级。

搜索前，函数会使用为 text index 指定的分词器，对 input 和 phrase 参数进行分词。如果该列未定义 text index，则改为使用 splitByNonAlpha 分词器——除非通过可选的第三个参数指定了分词器。 tokenizer 参数必须是 splitByNonAlpha、splitByString、ngrams 或 asciiCJK 之一。

注意

当 text index 定义了 preprocessor (例如 lowerUTF8) 时，hasPhrase 会在分词前将其应用于 input 和 phrase。 preprocessor 仅在 text index 路径上应用，因此使用 text index 的查询与不使用 text index 的查询，结果可能会有所不同 (例如 SETTINGS use_skip_indexes = 0) 。允许这种不一致，以提升 full-text search 的易用性。

与 hasToken、hasAnyTokens 和 hasAllTokens 不同，hasPhrase 要求这些标记按相同顺序出现，并且中间不能插入任何其他标记。例如，hasPhrase('the quick brown fox', 'quick fox') 返回 0，因为 "brown" 出现在 "quick" 和 "fox" 之间。

语法

hasPhrase(input, phrase[, tokenizer])

别名: matchPhrase

参数

input — 输入列。String 或 FixedString
phrase — 要查找的短语。const String
tokenizer — 要使用的分词器。可选，默认为 splitByNonAlpha。const String

返回值

如果找到该短语对应的连续标记序列，则返回 1；否则返回 0。UInt8

示例

短语匹配

SELECT hasPhrase('the quick brown fox jumps', 'quick brown')

┌─hasPhrase('the quick brown fox jumps', 'quick brown')─┐
│                                                      1 │
└────────────────────────────────────────────────────────┘

非相邻标记

SELECT hasPhrase('the quick brown fox jumps', 'quick fox')

┌─hasPhrase('the quick brown fox jumps', 'quick fox')─┐
│                                                    0 │
└──────────────────────────────────────────────────────┘

hasSubsequence

引入版本：v23.7.0

检查 needle 是否为 haystack 的子序列。字符串的子序列是指可以通过删除原字符串中的某些字符 (也可以一个都不删) ，并保持剩余字符相对顺序不变而得到的序列。

语法

hasSubsequence(haystack, needle)

参数

haystack — 要在其中搜索子序列的字符串。String
needle — 要搜索的子序列。String

返回值

如果 needle 是 haystack 的子序列，则返回 1，否则返回 0。UInt8

示例

基本子序列检查

SELECT hasSubsequence('Hello World', 'HlWrd')

┌─hasSubsequence('Hello World', 'HlWrd')─┐
│                                      1 │
└────────────────────────────────────────┘

未找到匹配的子序列

SELECT hasSubsequence('Hello World', 'xyz')

┌─hasSubsequence('Hello World', 'xyz')─┐
│                                    0 │
└──────────────────────────────────────┘

hasSubsequenceCaseInsensitive

自 v23.7.0 引入

与 hasSubsequence 类似，但进行大小写不敏感的搜索。

语法

hasSubsequenceCaseInsensitive(haystack, needle)

参数

haystack — 要在其中进行搜索的字符串。String
needle — 要查找的子序列。String

返回值

如果 needle 是 haystack 的子序列，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT hasSubsequenceCaseInsensitive('garbage', 'ARG');

┌─hasSubsequenceCaseInsensitive('garbage', 'ARG')─┐
│                                               1 │
└─────────────────────────────────────────────────┘

hasSubsequenceCaseInsensitiveUTF8

自 v23.7.0 引入

与 hasSubsequenceUTF8 类似，但执行不区分大小写的搜索。

语法

hasSubsequenceCaseInsensitiveUTF8(haystack, needle)

参数

haystack — 执行搜索的 UTF-8 编码字符串。String
needle — 要查找的 UTF-8 编码子序列字符串。String

返回值

如果 needle 是 haystack 的子序列，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT hasSubsequenceCaseInsensitiveUTF8('ClickHouse - столбцовая система управления базами данных', 'СИСТЕМА');

┌─hasSubsequen⋯ 'СИСТЕМА')─┐
│                        1 │
└──────────────────────────┘

hasSubsequenceUTF8

引入版本：v23.7.0

类似于 hasSubsequence，但假设 haystack 和 needle 是 UTF-8 编码的字符串。

语法

hasSubsequenceUTF8(haystack, needle)

参数

haystack — 要在其中搜索的字符串。String
needle — 要搜索的子序列。String

返回值

如果 needle 是 haystack 的子序列，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT hasSubsequenceUTF8('картошка', 'кошка');

┌─hasSubsequen⋯', 'кошка')─┐
│                        1 │
└──────────────────────────┘

未匹配的子序列

SELECT hasSubsequenceUTF8('картошка', 'апельсин');

┌─hasSubsequen⋯'апельсин')─┐
│                        0 │
└──────────────────────────┘

hasToken

引入版本：v20.1.0

检查给定 token 是否存在于 haystack 中。

使用 splitByNonAlpha 作为分词器，即 token 被定义为由字符 [0-9A-Za-z_] (数字、ASCII 字符和下划线) 组成的最长可能的连续子序列。

语法

hasToken(haystack, token)

参数

haystack — 被搜索的字符串。String
token — 要查找的 token。const String

返回值

如果找到 token，则返回 1，否则返回 0。UInt8

示例

Token 查找

SELECT hasToken('clickhouse test', 'test')

┌─hasToken('clickhouse test', 'test')─┐
│                                   1 │
└─────────────────────────────────────┘

hasTokenCaseInsensitive

引入于：v20.1.0

在 haystack 中使用 tokenbf_v1 索引对 needle 执行不区分大小写的查找。

语法

hasTokenCaseInsensitive(haystack, needle)

参数

无。

返回值

示例

hasTokenCaseInsensitiveOrNull

引入于：v23.1.0

使用 tokenbf_v1 索引在 haystack 中对 needle 执行不区分大小写的查找。如果 needle 非法，则返回 NULL。

语法

hasTokenCaseInsensitiveOrNull(haystack, needle)

参数

无。

返回值

示例

hasTokenOrNull

引入于：v20.1.0

类似于 hasToken，但当 token 格式不合法时返回 null。

语法

hasTokenOrNull(haystack, token)

参数

haystack — 要搜索的字符串。必须为常量。String
token — 要搜索的 token。const String

返回值

如果找到 token 则返回 1，否则返回 0；如果 token 格式不合法则返回 null。Nullable(UInt8)

示例

用法示例

SELECT hasTokenOrNull('apple banana cherry', 'ban ana');

┌─hasTokenOrNu⋯ 'ban ana')─┐
│                     ᴺᵁᴸᴸ │
└──────────────────────────┘

highlight

引入于：v26.4.0

通过用 HTML 标签包裹文本字符串中搜索词的匹配项来高亮显示它们。

该函数执行 ASCII 不区分大小写的匹配。如果多个搜索词在文本中重叠或相邻，匹配区域会合并为一个高亮范围。

语法

highlight(haystack, needles[, open_tag, close_tag])

参数

haystack — 要搜索的文本。String 或 FixedString
needles — 要高亮的搜索词数组。const Array(String)
open_tag — 在每个匹配项前插入的起始标签。默认值：<em>。const String
close_tag — 在每个匹配项后插入的结束标签。默认值：</em>。const String

返回值

返回将匹配词用指定标签包裹后的输入文本。String

示例

基本高亮

SELECT highlight('The quick brown fox', ['quick', 'fox'])

┌─highlight('The quick brown fox', ['quick', 'fox'])─┐
│ The <em>quick</em> brown <em>fox</em>              │
└────────────────────────────────────────────────────┘

自定义标签

SELECT highlight('Hello World', ['hello'], '<b>', '</b>')

┌─highlight('Hello World', ['hello'], '<b>', '</b>')─┐
│ <b>Hello</b> World                                 │
└────────────────────────────────────────────────────┘

ilike

自 v20.6.0 引入

类似于 like，但进行不区分大小写的匹配。支持可选的 ESCAPE 子句 (参见 like) 。

语法

ilike(haystack, pattern[, escape_character])
-- haystack ILIKE pattern [ESCAPE 'escape_character']

参数

haystack — 要在其中执行查找的字符串。String 或 FixedString
pattern — 要匹配的 LIKE 模式。String
escape_character — 可选的单字符字符串，用作转义字符，而不是 \。默认值：\。String

返回值

如果字符串匹配 LIKE 模式 (不区分大小写) ，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT ilike('ClickHouse', '%house%');

┌─ilike('ClickHouse', '%house%')─┐
│                              1 │
└────────────────────────────────┘

like

引入版本：v1.1.0

返回字符串 haystack 是否与 LIKE 表达式 pattern 匹配。

一个 LIKE 表达式可以包含普通字符以及以下元符号：

% 表示任意数量的任意字符 (包括零个字符) 。
_ 表示单个任意字符。
\ 用于转义字面量 %、_ 和 \。

匹配基于 UTF-8，例如 _ 可以匹配 Unicode 码点 ¥，该码点在 UTF-8 中使用两个字节表示。

如果 haystack 或 LIKE 表达式不是有效的 UTF-8，则行为未定义。

不会自动进行 Unicode 规范化，您可以使用 normalizeUTF8* 函数来实现这一点。

要匹配字面量 %、_ 和 \ (它们是 LIKE 元字符) ，需要在前面加反斜杠：\%、\_ 和 \\。如果反斜杠位于除 %、_ 或 \ 之外的字符前时，其特殊含义将失效 (即按字面量解释) 。

注意

ClickHouse 要求字符串中的反斜杠同样需要转义，因此实际上需要写成 \\%、\\_ 和 \\\\。

对于形式为 %needle% 的 LIKE 表达式，该函数的速度与 position 函数一样快。所有其他 LIKE 表达式在内部会被转换为正则表达式，并以类似于函数 match 的性能执行。

ESCAPE 子句

可选的 ESCAPE 子句用于指定自定义转义字符 (必须为单个 ASCII 字符) 。指定后，自定义转义字符会替代默认的反斜杠，用于转义元字符 % 和 _。该转义字符可以转义三类内容：% (字面量百分号) 、_ (字面量下划线) 以及它自身 (字面量转义字符) 。使用自定义转义字符时，反斜杠不再具有特殊含义，而是按字面量字符处理。

语法

like(haystack, pattern[, escape_character])
-- haystack LIKE pattern [ESCAPE 'escape_character']

参数

haystack — 要在其中执行搜索的字符串。String 或 FixedString
pattern — 用于匹配的 LIKE 模式。可以包含 % (匹配任意数量的字符) 、_ (匹配单个字符) 以及用于转义的反斜杠 \。String
escape_character — 可选的单字符字符串，用作转义字符，以替代 \。默认值：\。String

返回值

如果字符串与 LIKE 模式匹配，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT like('ClickHouse', '%House');

┌─like('ClickHouse', '%House')─┐
│                            1 │
└──────────────────────────────┘

单字符通配符

SELECT like('ClickHouse', 'Click_ouse');

┌─like('ClickH⋯lick_ouse')─┐
│                        1 │
└──────────────────────────┘

未匹配的模式

SELECT like('ClickHouse', '%SQL%');

┌─like('ClickHouse', '%SQL%')─┐
│                           0 │
└─────────────────────────────┘

ESCAPE 子句

SELECT '50%off' LIKE '50#%off' ESCAPE '#';

┌─like('50%off', '50#%off', '#')─┐
│                              1 │
└────────────────────────────────┘

locate

引入版本：v18.16.0

类似于 position，但参数 haystack 和 locate 的顺序是相反的。

Version dependent behavior

此函数的行为取决于 ClickHouse 版本：

在 v24.3 之前的版本中，locate 是函数 position 的别名，接受参数 (haystack, needle[, start_pos])。
在 v24.3 及之后的版本中，locate 是一个独立的函数 (为更好地兼容 MySQL) ，接受参数 (needle, haystack[, start_pos])。可以通过设置 function_locate_has_mysql_compatible_argument_order = false 来恢复先前的行为。

语法

locate(needle, haystack[, start_pos])

参数

needle — 要查找的子字符串。String
haystack — 执行搜索的字符串。String 或 Enum
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始计数) 。UInt

返回值

如果找到子字符串，则返回起始位置 (以字节为单位，从 1 开始计数) ；如果未找到子字符串，则返回 0。UInt64

示例

基本用法

SELECT locate('ca', 'abcabc')

┌─locate('ca', 'abcabc')─┐
│                      3 │
└────────────────────────┘

match

引入版本：v1.1.0

检查给定字符串是否与给定的正则表达式模式匹配。

此函数使用 RE2 正则表达式库。有关支持的语法，请参阅 re2。

匹配基于 UTF-8 假设进行，例如 ¥ 在内部使用两个字节，但在匹配时被视为单个码点。正则表达式中不能包含 NULL 字节。如果 haystack 或 pattern 不是有效的 UTF-8，其行为未定义。

与 re2 的默认行为不同，. 会匹配换行符。若要禁用此行为，请在模式前加上 (?-s)。

模式不会自动锚定。若要匹配整个字符串，请使用 ^ 和 $ 自行锚定模式。

如果你只想查找子字符串，可以改用函数 like 或 position，它们的执行速度远快于此函数。

替代运算符语法：haystack REGEXP pattern。

语法

match(haystack, pattern)

别名: REGEXP_MATCHES

参数

haystack — 要在其中搜索正则模式的字符串。String
pattern — 正则表达式模式。const String

返回值

如果模式匹配则返回 1，否则返回 0。UInt8

示例

基本模式匹配

SELECT match('Hello World', 'Hello.*')

┌─match('Hello World', 'Hello.*')─┐
│                               1 │
└─────────────────────────────────┘

未匹配到模式

SELECT match('Hello World', 'goodbye.*')

┌─match('Hello World', 'goodbye.*')─┐
│                                 0 │
└───────────────────────────────────┘

匹配子串

SELECT match('abcde', 'b.*d'), match('abcde', '^b.*d$')

┌─match('abcde', 'b.*d')─┬─match('abcde', '^b.*d$')─┐
│                       1 │                         0 │
└─────────────────────────┴───────────────────────────┘

multiFuzzyMatchAllIndices

引入版本：v20.1.0

与 multiFuzzyMatchAny 类似，但返回在固定编辑距离约束下，与 haystack 匹配的所有索引组成的数组，顺序任意。

语法

multiFuzzyMatchAllIndices(haystack, distance, [pattern1, pattern2, ..., patternN])

参数

haystack — 要在其中进行搜索的字符串。String
distance — 用于模糊匹配的最大编辑距离。UInt8
pattern — 要匹配的模式数组。Array(String)

返回值

返回一个数组，其中包含所有在指定编辑距离内与 haystack 匹配的索引 (从 1 开始) ，顺序不固定。如果未找到匹配项，则返回空数组。Array(UInt64)

示例

用法示例

SELECT multiFuzzyMatchAllIndices('ClickHouse', 2, ['ClickHouse', 'ClckHouse', 'ClickHose', 'House']);

┌─multiFuzzyMa⋯, 'House'])─┐
│ [3,1,4,2]                │
└──────────────────────────┘

multiFuzzyMatchAny

引入版本：v20.1.0

类似于 multiMatchAny，但在给定恒定的编辑距离内，只要任意模式与 haystack 匹配就返回 1。此函数依赖于 hyperscan 库的实验性特性，在某些极端情况下可能较慢。性能取决于编辑距离的大小和所使用的模式，但与非模糊变体相比，其开销始终更大。

注意

由于 hyperscan 的限制，multiFuzzyMatch*() 函数族不支持 UTF-8 正则表达式 (会将其按字节序列处理) 。

语法

multiFuzzyMatchAny(haystack, distance, [pattern1, pattern2, ..., patternN])

参数

haystack — 要在其中执行搜索的字符串。String
distance — 模糊匹配允许的最大编辑距离。UInt8
pattern — 可选。用于匹配的模式数组。Array(String)

返回值

如果任意模式在指定编辑距离范围内匹配 haystack，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT multiFuzzyMatchAny('ClickHouse', 2, ['ClickHouse', 'ClckHouse', 'ClickHose']);

┌─multiFuzzyMa⋯lickHose'])─┐
│                        1 │
└──────────────────────────┘

multiFuzzyMatchAnyIndex

引入于：v20.1.0

类似于 multiFuzzyMatchAny，但返回在给定常量编辑距离范围内与目标字符串匹配的任意索引。

语法

multiFuzzyMatchAnyIndex(haystack, distance, [pattern1, pattern2, ..., patternn])

参数

haystack — 要在其中执行搜索的字符串。String
distance — 用于模糊匹配的最大编辑距离。UInt8
pattern — 要匹配的模式数组。Array(String)

返回值

返回在指定编辑距离内与 haystack 中任意一个模式匹配的索引 (从 1 开始) ，否则返回 0。UInt64

示例

用法示例

SELECT multiFuzzyMatchAnyIndex('ClickHouse', 2, ['ClckHouse', 'ClickHose', 'ClickHouse']);

┌─multiFuzzyMa⋯ickHouse'])─┐
│                        2 │
└──────────────────────────┘

multiMatchAllIndices

自 v20.1.0 起提供

类似于 multiMatchAny，但会按任意顺序返回所有与 haystack 匹配的索引组成的数组。

语法

multiMatchAllIndices(haystack, [pattern1, pattern2, ..., patternn])

参数

haystack — 执行搜索的字符串。String
pattern — 要匹配的正则表达式。String

返回值

所有匹配项的索引 (从 1 开始) 组成的数组，索引顺序任意。如果未找到匹配，则返回空数组。Array(UInt64)

示例

使用示例

SELECT multiMatchAllIndices('ClickHouse', ['[0-9]', 'House', 'Click', 'ouse']);

┌─multiMatchAl⋯', 'ouse'])─┐
│ [3, 2, 4]                │
└──────────────────────────┘

multiMatchAny

引入版本：v20.1.0

检查多个正则表达式模式中是否至少有一个与目标字符串匹配。

如果只需要在字符串中搜索多个子串，可以改用函数 multiSearchAny —— 它比本 FUNCTION 快得多。

语法

multiMatchAny(haystack, pattern1[, pattern2, ...])

参数

haystack — 要在其中搜索的字符串。String
pattern1[, pattern2, ...] — 由一个或多个正则表达式模式组成的数组。Array(String)

返回值

如果任一模式匹配则返回 1，否则返回 0。UInt8

示例

多模式匹配

SELECT multiMatchAny('Hello World', ['Hello.*', 'foo.*'])

┌─multiMatchAny('Hello World', ['Hello.*', 'foo.*'])─┐
│                                                  1 │
└────────────────────────────────────────────────────┘

未匹配到任何模式

SELECT multiMatchAny('Hello World', ['goodbye.*', 'foo.*'])

┌─multiMatchAny('Hello World', ['goodbye.*', 'foo.*'])─┐
│                                                    0 │
└──────────────────────────────────────────────────────┘

multiMatchAnyIndex

引入于：v20.1.0

类似于 multiMatchAny，但返回在 haystack 中匹配到的任意索引。

语法

multiMatchAnyIndex(haystack, [pattern1, pattern2, ..., patternn])

参数

haystack — 要在其中执行搜索的字符串。String
pattern — 用于匹配的正则表达式数组。Array(String)

返回值

返回第一个匹配成功的模式的索引 (从 1 开始) ，如果未找到匹配则返回 0。UInt64

示例

用法示例

SELECT multiMatchAnyIndex('ClickHouse', ['[0-9]', 'House', 'Click']);

┌─multiMatchAn⋯, 'Click'])─┐
│                        3 │
└──────────────────────────┘

multiSearchAllPositions

引入版本：v20.1.0

类似于 position，但会返回一个位置数组，表示 haystack 字符串中多个 needle 子串的匹配位置 (以字节为单位，从 1 开始计数) 。

所有 multiSearch*() 函数至多支持 2^8 个 needle。

语法

multiSearchAllPositions(haystack, needle1[, needle2, ...])

参数

haystack — 要在其中执行搜索的字符串。String
needle1[, needle2, ...] — 由一个或多个待搜索子字符串组成的数组。Array(String)

返回值

返回一个数组，元素为子字符串的起始位置 (以字节为单位，从 1 开始计数) ；如果找到子字符串则返回其位置，未找到则返回 0。Array(UInt64)

示例

多个 needle 搜索

SELECT multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])

┌─multiSearchAllPositions('Hello, World!', ['hello', '!', 'world'])─┐
│ [0,13,0]                                                          │
└───────────────────────────────────────────────────────────────────┘

multiSearchAllPositionsCaseInsensitive

自 v20.1.0 版本引入。

类似于 multiSearchAllPositions，但忽略大小写。

语法

multiSearchAllPositionsCaseInsensitive(haystack, needle1[, needle2, ...])

参数

haystack — 执行搜索操作的字符串。String
needle1[, needle2, ...] — 由一个或多个要搜索的子字符串组成的数组。Array(String)

返回值

返回一个数组：如果找到子字符串，则为其起始位置 (以字节为单位，从 1 开始计数) ；如果未找到子字符串，则为 0。Array(UInt64)

示例

不区分大小写的多重搜索

SELECT multiSearchAllPositionsCaseInsensitive('ClickHouse',['c','h'])

┌─multiSearchA⋯['c', 'h'])─┐
│ [1,6]                    │
└──────────────────────────┘

multiSearchAllPositionsCaseInsensitiveUTF8

自 v20.1.0 版本引入。

与 multiSearchAllPositionsUTF8 类似，但忽略大小写。

语法

multiSearchAllPositionsCaseInsensitiveUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 要在其中执行搜索的 UTF-8 编码字符串。String
needle — 要查找的 UTF-8 编码子串数组。Array(String)

返回值

如果找到了子串，则返回一个以字节为单位、从 1 开始计数的起始位置数组。如果未找到子串，则返回 0。Array

示例

不区分大小写的 UTF-8 搜索

SELECT multiSearchAllPositionsCaseInsensitiveUTF8('Здравствуй, мир!', ['здравствуй', 'МИР']);

┌─multiSearchA⋯й', 'МИР'])─┐
│ [1, 13]                  │
└──────────────────────────┘

multiSearchAllPositionsUTF8

引入版本：v20.1.0

与 multiSearchAllPositions 类似，但假定 haystack 和 needle 子串是 UTF-8 编码的字符串。

语法

multiSearchAllPositionsUTF8(haystack, needle1[, needle2, ...])

参数

haystack — 执行搜索操作的 UTF-8 编码字符串。String
needle1[, needle2, ...] — 要搜索的 UTF-8 编码子字符串组成的数组。Array(String)

返回值

返回一个数组，其中每个元素为起始位置的字节偏移 (从 1 开始计数，如果找到子字符串) ，若未找到子字符串则为 0。Array

示例

UTF-8 多重搜索

SELECT multiSearchAllPositionsUTF8('ClickHouse',['C','H'])

┌─multiSearchAllPositionsUTF8('ClickHouse', ['C', 'H'])─┐
│ [1,6]                                                 │
└───────────────────────────────────────────────────────┘

multiSearchAny

引入版本：v20.1.0

检查在多个 needle 字符串中，是否至少有一个与 haystack 字符串匹配。

函数 multiSearchAnyCaseInsensitive、multiSearchAnyUTF8 和 multiSearchAnyCaseInsensitiveUTF8 提供该函数的不区分大小写和/或 UTF-8 变体。

语法

multiSearchAny(haystack, needle1[, needle2, ...])

参数

haystack — 要在其中执行搜索的字符串。String
needle1[, needle2, ...] — 要搜索的子字符串数组。Array(String)

返回值

如果至少存在一个匹配，则返回 1；否则返回 0。UInt8

示例

任意匹配查找

SELECT multiSearchAny('ClickHouse',['C','H'])

┌─multiSearchAny('ClickHouse', ['C', 'H'])─┐
│                                        1 │
└──────────────────────────────────────────┘

multiSearchAnyCaseInsensitive

在 v20.1.0 版本中引入。

与 multiSearchAny 类似，但忽略大小写。

语法

multiSearchAnyCaseInsensitive(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 要在其中执行搜索的字符串。String
needle — 要搜索的子字符串数组。Array(String)

返回值

如果至少存在一个不区分大小写的匹配，则返回 1，否则 (不存在任何不区分大小写的匹配时) 返回 0。UInt8

示例

不区分大小写搜索

SELECT multiSearchAnyCaseInsensitive('ClickHouse',['c','h'])

┌─multiSearchAnyCaseInsensitive('ClickHouse', ['c', 'h'])─┐
│                                                       1 │
└─────────────────────────────────────────────────────────┘

multiSearchAnyCaseInsensitiveUTF8

引入版本：v20.1.0

功能类似于 multiSearchAnyUTF8，但不区分大小写。

语法

multiSearchAnyCaseInsensitiveUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 执行搜索操作的 UTF-8 编码字符串。String
needle — 要搜索的 UTF-8 编码子字符串数组。Array(String)

返回值

如果至少存在一个不区分大小写的匹配，则返回 1；否则返回 0。UInt8

示例

给定 UTF-8 字符串 'Здравствуйте'，检查字符 'з' (小写) 是否存在

SELECT multiSearchAnyCaseInsensitiveUTF8('Здравствуйте',['з'])

┌─multiSearchA⋯те', ['з'])─┐
│                        1 │
└──────────────────────────┘

multiSearchAnyUTF8

自 v20.1.0 版本引入

与 multiSearchAny 类似，但假定 haystack 和 needle 子字符串是 UTF-8 编码的字符串。

语法

multiSearchAnyUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 要在其中执行搜索的 UTF-8 字符串。String
needle — 要搜索的 UTF-8 子字符串数组。Array(String)

返回值

如果至少有一个匹配，则返回 1，否则返回 0。UInt8

示例

给定 '你好，世界' ('Hello, world') 作为 UTF-8 字符串，检查该字符串中是否存在任意一个「你」或「界」字符

SELECT multiSearchAnyUTF8('你好，世界', ['你', '界'])

┌─multiSearchA⋯你', '界'])─┐
│                        1 │
└──────────────────────────┘

multiSearchFirstIndex

引入版本：v20.1.0

在一个源字符串中 (区分大小写) 搜索多个目标字符串，并返回首次匹配到的目标字符串的从 1 开始的索引。

语法

multiSearchFirstIndex(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 要在其中执行搜索的字符串。String
needles — 要搜索的字符串构成的数组。Array(String)

返回值

返回在 haystack 中找到的 needles 数组中第一个元素在该数组中的从 1 开始的索引 (位置) 。如果未找到任何元素，则返回 0。搜索区分大小写。UInt64

示例

用法示例

SELECT multiSearchFirstIndex('ClickHouse Database', ['Click', 'Database', 'Server']);

┌─multiSearchF⋯ 'Server'])─┐
│                        1 │
└──────────────────────────┘

大小写敏感时的行为

SELECT multiSearchFirstIndex('ClickHouse Database', ['CLICK', 'Database', 'Server']);

┌─multiSearchF⋯ 'Server'])─┐
│                        2 │
└──────────────────────────┘

未找到匹配结果

SELECT multiSearchFirstIndex('Hello World', ['goodbye', 'test']);

┌─multiSearchF⋯', 'test'])─┐
│                        0 │
└──────────────────────────┘

multiSearchFirstIndexCaseInsensitive

引入版本：v20.1.0

返回在字符串 haystack 中从左侧起首次匹配到的 needle_i 的索引 i (从 1 开始计数) ；如果未找到则返回 0。比较时忽略大小写。

语法

multiSearchFirstIndexCaseInsensitive(haystack, [needle1, needle2, ..., needleN]

参数

haystack — 要在其中执行搜索的字符串。String
needle — 要搜索的子字符串。Array(String)

返回值

返回最左边首次找到的 needle 的索引 (从 1 开始计数) 。如果没有匹配，则返回 0。UInt8

示例

用法示例

SELECT multiSearchFirstIndexCaseInsensitive('hElLo WoRlD', ['World', 'Hello']);

┌─multiSearchF⋯, 'Hello'])─┐
│                        1 │
└──────────────────────────┘

multiSearchFirstIndexCaseInsensitiveUTF8

自 v20.1.0 引入

在一个字符串中不区分大小写地搜索多个子字符串 (needle) ，支持 UTF-8 编码，并返回第一个被找到的子字符串的从 1 开始的索引位置。

语法

multiSearchFirstIndexCaseInsensitiveUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 要在其中进行搜索的字符串。String
needles — 要搜索的字符串数组。Array(String)

返回值

返回在 haystack 中找到的第一个 needle 在 needles 数组中的从 1 开始的索引 (位置) 。如果未找到任何 needle，则返回 0。搜索不区分大小写，并遵循 UTF-8 字符编码。UInt64

示例

用法示例

SELECT multiSearchFirstIndexCaseInsensitiveUTF8('ClickHouse Database', ['CLICK', 'data', 'server']);

┌─multiSearchF⋯ 'server'])─┐
│                        1 │
└──────────────────────────┘

UTF-8 大小写处理

SELECT multiSearchFirstIndexCaseInsensitiveUTF8('Привет Мир', ['мир', 'ПРИВЕТ']);

┌─multiSearchF⋯ 'ПРИВЕТ'])─┐
│                        1 │
└──────────────────────────┘

未找到匹配结果

SELECT multiSearchFirstIndexCaseInsensitiveUTF8('Hello World', ['goodbye', 'test']);

┌─multiSearchF⋯', 'test'])─┐
│                        0 │
└──────────────────────────┘

multiSearchFirstIndexUTF8

引入版本：v20.1.0

返回在字符串 haystack 中最左侧被找到的 needle_i 对应的索引 i (从 1 开始计数) ，否则返回 0。假设 haystack 和 needle 为 UTF-8 编码字符串。

语法

multiSearchFirstIndexUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 进行搜索的 UTF-8 字符串。String
needle — 要搜索的 UTF-8 子字符串数组。Array(String)

返回值

返回最左边匹配到的 needle 的索引 (从 1 开始) 。若无匹配，则返回 0。UInt8

示例

用法示例

SELECT multiSearchFirstIndexUTF8('Здравствуйте мир', ['мир', 'здравствуйте']);

┌─multiSearchF⋯вствуйте'])─┐
│                        1 │
└──────────────────────────┘

multiSearchFirstPosition

引入于：v20.1.0

类似于 position，但返回在 haystack 字符串中，与多个 needle 字符串中任意一个匹配的最左侧位置的偏移量。

函数 multiSearchFirstPositionCaseInsensitive、multiSearchFirstPositionUTF8 和 multiSearchFirstPositionCaseInsensitiveUTF8 提供该函数的大小写不敏感和/或 UTF-8 版本。

语法

multiSearchFirstPosition(haystack, needle1[, needle2, ...])

参数

haystack — 要在其中执行搜索的字符串。String
needle1[, needle2, ...] — 包含一个或多个要搜索子字符串的数组。Array(String)

返回值

返回 haystack 字符串中，与多个 needle 字符串中任意一个匹配的、最左侧出现位置的偏移量；如果没有匹配，则返回 0。UInt64

示例

首个位置搜索

SELECT multiSearchFirstPosition('Hello World',['llo', 'Wor', 'ld'])

┌─multiSearchFirstPosition('Hello World', ['llo', 'Wor', 'ld'])─┐
│                                                             3 │
└───────────────────────────────────────────────────────────────┘

multiSearchFirstPositionCaseInsensitive

自 v20.1.0 引入

与 multiSearchFirstPosition 类似，但忽略字符大小写。

语法

multiSearchFirstPositionCaseInsensitive(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 其中进行搜索的字符串。String
needle — 要搜索的子字符串数组。Array(String)

返回值

返回在 haystack 字符串中与多个 needle 字符串中任意一个匹配的最左侧偏移量。如果没有匹配则返回 0。UInt64

示例

不区分大小写的首个匹配位置

SELECT multiSearchFirstPositionCaseInsensitive('HELLO WORLD',['wor', 'ld', 'ello'])

┌─multiSearchFirstPositionCaseInsensitive('HELLO WORLD', ['wor', 'ld', 'ello'])─┐
│                                                                             2 │
└───────────────────────────────────────────────────────────────────────────────┘

multiSearchFirstPositionCaseInsensitiveUTF8

自 v20.1.0 引入

与 multiSearchFirstPosition 类似，但假设 haystack 和 needle 为 UTF-8 字符串，并且忽略大小写。

语法

multiSearchFirstPositionCaseInsensitiveUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 进行搜索的 UTF-8 字符串。String
needle — 要搜索的 UTF-8 子字符串数组。Array(String)

返回值

返回在 haystack 字符串中，与多个 needle 字符串中任意一个匹配的最左侧偏移量，忽略大小写。如果没有匹配，则返回 0。UInt64

示例

查找 UTF-8 字符串 'Здравствуй, мир' ('Hello, world') 中与任意给定 needle 匹配的最左侧偏移量

SELECT multiSearchFirstPositionCaseInsensitiveUTF8('Здравствуй, мир', ['МИР', 'вст', 'Здра'])

┌─multiSearchFirstPositionCaseInsensitiveUTF8('Здравствуй, мир', ['мир', 'вст', 'Здра'])─┐
│                                                                                      3 │
└────────────────────────────────────────────────────────────────────────────────────────┘

multiSearchFirstPositionUTF8

自 v20.1.0 引入

与 multiSearchFirstPosition 类似，但假定 haystack 和 needle 为 UTF-8 字符串。

语法

multiSearchFirstPositionUTF8(haystack, [needle1, needle2, ..., needleN])

参数

haystack — 执行搜索的 UTF-8 字符串。String
needle — 要搜索的 UTF-8 子字符串数组。Array(String)

返回值

haystack 字符串中与多个 needle 字符串中任意一个匹配的最左侧偏移量。如果没有匹配则返回 0。UInt64

示例

在 UTF-8 字符串 'Здравствуй, мир' ('Hello, world') 中查找与给定任意 needle 匹配的最左侧偏移量

SELECT multiSearchFirstPositionUTF8('Здравствуй, мир',['мир', 'вст', 'авст'])

┌─multiSearchFirstPositionUTF8('Здравствуй, мир', ['мир', 'вст', 'авст'])─┐
│                                                                       3 │
└─────────────────────────────────────────────────────────────────────────┘

ngramDistance

引入版本：v20.1.0

计算两个字符串之间的 4-gram 距离。具体而言，它计算两个 4-gram 多重集之间的对称差，并用它们基数之和对结果进行归一化处理。返回值越小，字符串越相似。

对于不区分大小写的搜索和/或 UTF-8 格式，请使用函数 ngramDistanceCaseInsensitive、ngramDistanceUTF8、ngramDistanceCaseInsensitiveUTF8。

语法

ngramDistance(haystack, needle)

参数

haystack — 用于比较的字符串。String
needle — 用于比较的字符串。String

返回值

返回一个介于 0 和 1 之间的 Float32 类型数值。返回值越小，字符串越相似。Float32

示例

计算 4-gram 距离

SELECT ngramDistance('ClickHouse', 'ClickHouses')

┌─ngramDistance('ClickHouse', 'ClickHouses')─┐
│                                        0.1 │
└────────────────────────────────────────────┘

ngramDistanceCaseInsensitive

引入版本：v20.1.0

提供 ngramDistance 的不区分大小写变体。计算两个字符串之间的 4-gram 距离，忽略大小写。返回值越小，字符串越相似。

语法

ngramDistanceCaseInsensitive(haystack, needle)

参数

haystack — 第一个用于比较的字符串。String
needle — 第二个用于比较的字符串。String

返回值

返回介于 0 和 1 之间的 Float32 类型数值。Float32

示例

不区分大小写的 4-gram 距离

SELECT ngramDistanceCaseInsensitive('ClickHouse','clickhouse')

┌─ngramDistanceCaseInsensitive('ClickHouse','clickhouse')─┐
│                                                       0 │
└─────────────────────────────────────────────────────────┘

ngramDistanceCaseInsensitiveUTF8

引入版本：v20.1.0

提供 ngramDistance 的不区分大小写的 UTF-8 变体。假定 needle 和 haystack 字符串是 UTF-8 编码的字符串，并忽略大小写。计算两个 UTF-8 字符串之间的 3-gram 距离 (忽略大小写) 。返回值越小，字符串越相似。

语法

ngramDistanceCaseInsensitiveUTF8(haystack, needle)

参数

haystack — 第一个使用 UTF-8 编码的比较字符串。String
needle — 第二个使用 UTF-8 编码的比较字符串。String

返回值

返回一个介于 0 和 1 之间的 Float32 值。Float32

示例

不区分大小写的 UTF-8 3-gram 距离

SELECT ngramDistanceCaseInsensitiveUTF8('abcde','CDE')

┌─ngramDistanceCaseInsensitiveUTF8('abcde','CDE')─┐
│                                             0.5 │
└─────────────────────────────────────────────────┘

ngramDistanceUTF8

引入于：v20.1.0

提供 ngramDistance 的 UTF-8 变体。假定 needle 和 haystack 为 UTF-8 编码的字符串。计算两个 UTF-8 字符串之间的 3-gram 距离。返回值越小，字符串越相似。

语法

ngramDistanceUTF8(haystack, needle)

参数

haystack — 第一个 UTF-8 编码的比较字符串。String
needle — 第二个 UTF-8 编码的比较字符串。String

返回值

返回介于 0 和 1 之间的 Float32 类型数值。Float32

示例

UTF-8 3-gram 距离

SELECT ngramDistanceUTF8('abcde','cde')

┌─ngramDistanceUTF8('abcde','cde')─┐
│                               0.5 │
└───────────────────────────────────┘

ngramSearch

引入于：v20.1.0

检查两个字符串之间的 4-gram 距离是否小于或等于给定阈值。

对于不区分大小写和/或 UTF8 格式的搜索，请使用函数 ngramSearchCaseInsensitive、ngramSearchUTF8、ngramSearchCaseInsensitiveUTF8。

语法

ngramSearch(haystack, needle)

参数

haystack — 用于比较的字符串。String
needle — 用于比较的字符串。String

返回值

如果两个字符串之间的 4-gram 距离小于或等于阈值 (默认 1.0) ，则返回 1，否则返回 0。UInt8

示例

使用 4-gram 进行搜索

SELECT ngramSearch('ClickHouse', 'Click')

┌─ngramSearch('ClickHouse', 'Click')─┐
│                                  1 │
└────────────────────────────────────┘

ngramSearchCaseInsensitive

引入版本：v20.1.0

提供 ngramSearch 的大小写不敏感变体。计算 needle 字符串与 haystack 字符串之间的非对称差值，即 needle 中 n-gram 的数量减去两者共有的 n-gram 数量，并按 needle 中的 n-gram 数量归一化。在忽略大小写的情况下，检查两个字符串之间的 4-gram 距离是否小于或等于给定的阈值。

语法

ngramSearchCaseInsensitive(haystack, needle)

参数

haystack — 用于比较的字符串。String
needle — 用于比较的字符串。String

返回值

如果字符串之间的 4-gram 距离小于或等于阈值 (默认值为 1.0) ，则返回 1，否则返回 0。UInt8

示例

使用 4-gram 的不区分大小写搜索

SELECT ngramSearchCaseInsensitive('Hello World','hello')

┌─ngramSearchCaseInsensitive('Hello World','hello')─┐
│                                                  1 │
└────────────────────────────────────────────────────┘

ngramSearchCaseInsensitiveUTF8

引入版本：v20.1.0

提供 ngramSearch 的不区分大小写 UTF-8 变体。假定 haystack 和 needle 为 UTF-8 编码的字符串，并忽略大小写。在忽略大小写的情况下，检查两个 UTF-8 字符串之间的 3-gram 距离是否小于或等于给定阈值。

语法

ngramSearchCaseInsensitiveUTF8(haystack, needle)

参数

haystack — 用于比较的 UTF-8 字符串。String
needle — 用于比较的 UTF-8 字符串。String

返回值

如果两个字符串的 3-gram 距离小于等于阈值 (默认 1.0) ，则返回 1，否则返回 0。UInt8

示例

基于 3-gram 的 UTF-8 不区分大小写搜索

SELECT ngramSearchCaseInsensitiveUTF8('абвГДЕёжз', 'АбвгдЕЁжз')

┌─ngramSearchCaseInsensitiveUTF8('абвГДЕёжз', 'АбвгдЕЁжз')─┐
│                                                        1 │
└──────────────────────────────────────────────────────────┘

ngramSearchUTF8

在 v20.1.0 中引入

提供 ngramSearch 的 UTF-8 变体。假定 haystack 和 needle 为 UTF-8 字符串。检查两个 UTF-8 字符串之间的 3-gram 距离是否小于或等于给定的阈值。

语法

ngramSearchUTF8(haystack, needle)

参数

haystack — 参与比较的 UTF-8 字符串。String
needle — 参与比较的 UTF-8 字符串。String

返回值

如果字符串之间的 3-gram 距离小于或等于阈值 (默认 1.0) ，则返回 1，否则返回 0。UInt8

示例

基于 3-gram 的 UTF-8 搜索

SELECT ngramSearchUTF8('абвгдеёжз', 'гдеёзд')

┌─ngramSearchUTF8('абвгдеёжз', 'гдеёзд')─┐
│                                      1 │
└────────────────────────────────────────┘

notILike

引入版本：v20.6.0

在不区分大小写的情况下检查字符串是否不匹配某个模式。该模式可以包含用于 SQL LIKE 匹配的特殊字符 % 和 _。支持可选的 ESCAPE 子句 (参见 like) 。

语法

notILike(haystack, pattern[, escape_character])
-- haystack NOT ILIKE pattern [ESCAPE 'escape_character']

参数

haystack — 要搜索的输入字符串。String 或 FixedString
pattern — 要匹配的 SQL LIKE 模式字符串。% 匹配任意数量的字符 (包括零个) ，_ 匹配恰好一个字符。String
escape_character — 可选的单字符字符串，用作转义字符，以替代 \。默认值：\。String

返回值

如果字符串与该模式不匹配 (不区分大小写) ，则返回 1，否则返回 0。UInt8

示例

用法示例

SELECT notILike('ClickHouse', '%house%');

┌─notILike('Cl⋯ '%house%')─┐
│                        0 │
└──────────────────────────┘

notLike

自 v1.1.0 版本引入

类似于 like，但会对结果取反。支持可选的 ESCAPE 子句 (参见 like) 。

语法

notLike(haystack, pattern[, escape_character])
-- haystack NOT LIKE pattern [ESCAPE 'escape_character']

参数

haystack — 执行搜索的字符串。String 或 FixedString
pattern — 用于匹配的 LIKE 模式。String
escape_character — 可选的单字符字符串，用作转义字符，而不是使用 \。默认值：\。String

返回值

如果字符串不匹配 LIKE 模式则返回 1，否则返回 0。UInt8

示例

使用示例

SELECT notLike('ClickHouse', '%House%');

┌─notLike('Cli⋯ '%House%')─┐
│                        0 │
└──────────────────────────┘

未匹配到的模式

SELECT notLike('ClickHouse', '%SQL%');

┌─notLike('Cli⋯', '%SQL%')─┐
│                        1 │
└──────────────────────────┘

position

自 v1.1.0 起引入

返回子字符串 needle 在字符串 haystack 中的位置 (以字节为单位，从 1 开始计数) 。

如果子字符串 needle 为空，则适用以下规则：

如果未指定 start_pos：返回 1
如果 start_pos = 0：返回 1
如果 start_pos >= 1 且 start_pos <= length(haystack) + 1：返回 start_pos
否则：返回 0

相同规则也适用于函数 locate、positionCaseInsensitive、positionUTF8 和 positionCaseInsensitiveUTF8。

语法

position(haystack, needle[, start_pos])

参数

haystack — 执行查找的字符串。String 或 Enum
needle — 要查找的子字符串。String
start_pos — 在 haystack 中开始查找的位置 (从 1 开始计数) 。可选。UInt

返回值

如果找到子字符串，则返回起始位置 (按字节计数，从 1 开始) ；如果未找到，则返回 0。UInt64

示例

基本用法

SELECT position('Hello, world!', '!')

┌─position('Hello, world!', '!')─┐
│                             13 │
└────────────────────────────────┘

使用 start_pos 参数

SELECT position('Hello, world!', 'o', 1), position('Hello, world!', 'o', 7)

┌─position('Hello, world!', 'o', 1)─┬─position('Hello, world!', 'o', 7)─┐
│                                 5 │                                 9 │
└───────────────────────────────────┴───────────────────────────────────┘

needle IN haystack 语法形式

SELECT 6 = position('/' IN s) FROM (SELECT 'Hello/World' AS s)

┌─equals(6, position(s, '/'))─┐
│                           1 │
└─────────────────────────────┘

空搜索子串

SELECT position('abc', ''), position('abc', '', 0), position('abc', '', 1), position('abc', '', 2), position('abc', '', 3), position('abc', '', 4), position('abc', '', 5)

┌─position('abc', '')─┬─position('abc', '', 0)─┬─position('abc', '', 1)─┬─position('abc', '', 2)─┬─position('abc', '', 3)─┬─position('abc', '', 4)─┬─position('abc', '', 5)─┐
│                   1 │                      1 │                      1 │                      2 │                      3 │                      4 │                      0 │
└─────────────────────┴────────────────────────┴────────────────────────┴────────────────────────┴────────────────────────┴────────────────────────┴────────────────────────┘

positionCaseInsensitive

在 v1.1.0 中引入

与 position 类似，但不区分大小写。

语法

positionCaseInsensitive(haystack, needle[, start_pos])

别名: instr

参数

haystack — 要在其中进行搜索的字符串。String 或 Enum
needle — 要搜索的子字符串。String
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始计数) 。UInt*

返回值

如果找到子字符串，则返回起始位置 (按字节计，从 1 开始) ；如果未找到子字符串，则返回 0。UInt64

示例

不区分大小写搜索

SELECT positionCaseInsensitive('Hello, world!', 'hello')

┌─positionCaseInsensitive('Hello, world!', 'hello')─┐
│                                                 1 │
└───────────────────────────────────────────────────┘

positionCaseInsensitiveUTF8

在 v1.1.0 中引入。

与 positionUTF8 类似，但进行不区分大小写的搜索。

语法

positionCaseInsensitiveUTF8(haystack, needle[, start_pos])

参数

haystack — 要在其中执行搜索的字符串。String 或 Enum
needle — 要搜索的子字符串。String
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始计数) 。UInt*

返回值

如果找到子字符串，则返回从 1 开始计数的起始字节位置；如果未找到子字符串，则返回 0。UInt64

示例

不区分大小写的 UTF-8 搜索

SELECT positionCaseInsensitiveUTF8('Привет мир', 'МИР')

┌─positionCaseInsensitiveUTF8('Привет мир', 'МИР')─┐
│                                                8 │
└──────────────────────────────────────────────────┘

positionUTF8

自 v1.1.0 版本引入

与 position 类似，但假设 haystack 和 needle 为 UTF-8 编码的字符串。

语法

positionUTF8(haystack, needle[, start_pos])

参数

haystack — 要在其中执行搜索的字符串。String 或 Enum
needle — 要搜索的子字符串。String
start_pos — 可选。在 haystack 中开始搜索的位置 (从 1 开始计数) 。UInt*

返回值

如果找到子字符串，则返回其起始位置的字节偏移 (从 1 开始计数) ；如果未找到子字符串，则返回 0。UInt64

示例

UTF-8 字符计数

SELECT positionUTF8('Motörhead', 'r')

┌─position('Motörhead', 'r')─┐
│                          5 │
└────────────────────────────┘

countMatches​

countMatchesCaseInsensitive​

countSubstrings​

countSubstringsCaseInsensitive​

countSubstringsCaseInsensitiveUTF8​

extract​

extractAll​

extractAllGroupsHorizontal​

extractGroups​

hasAllTokens​

hasAnyTokens​

hasPhrase​

hasSubsequence​

hasSubsequenceCaseInsensitive​

hasSubsequenceCaseInsensitiveUTF8​

hasSubsequenceUTF8​

hasToken​

hasTokenCaseInsensitive​

hasTokenCaseInsensitiveOrNull​

hasTokenOrNull​

highlight​

ilike​

like​

ESCAPE 子句​

locate​

match​

multiFuzzyMatchAllIndices​

multiFuzzyMatchAny​

multiFuzzyMatchAnyIndex​

multiMatchAllIndices​

multiMatchAny​

multiMatchAnyIndex​

multiSearchAllPositions​

multiSearchAllPositionsCaseInsensitive​

multiSearchAllPositionsCaseInsensitiveUTF8​

multiSearchAllPositionsUTF8​

multiSearchAny​

multiSearchAnyCaseInsensitive​

multiSearchAnyCaseInsensitiveUTF8​

multiSearchAnyUTF8​

multiSearchFirstIndex​

multiSearchFirstIndexCaseInsensitive​

multiSearchFirstIndexCaseInsensitiveUTF8​

multiSearchFirstIndexUTF8​

multiSearchFirstPosition​

multiSearchFirstPositionCaseInsensitive​

multiSearchFirstPositionCaseInsensitiveUTF8​

multiSearchFirstPositionUTF8​

ngramDistance​

ngramDistanceCaseInsensitive​

ngramDistanceCaseInsensitiveUTF8​

ngramDistanceUTF8​

ngramSearch​

ngramSearchCaseInsensitive​

ngramSearchCaseInsensitiveUTF8​

ngramSearchUTF8​

notILike​

notLike​

position​

positionCaseInsensitive​

positionCaseInsensitiveUTF8​

positionUTF8​

countMatches

countMatchesCaseInsensitive

countSubstrings

countSubstringsCaseInsensitive

countSubstringsCaseInsensitiveUTF8

extract

extractAll

extractAllGroupsHorizontal

extractGroups

hasAllTokens

hasAnyTokens

hasPhrase

hasSubsequence

hasSubsequenceCaseInsensitive

hasSubsequenceCaseInsensitiveUTF8

hasSubsequenceUTF8

hasToken

hasTokenCaseInsensitive

hasTokenCaseInsensitiveOrNull

hasTokenOrNull

highlight

ilike

like

ESCAPE 子句

locate

match

multiFuzzyMatchAllIndices

multiFuzzyMatchAny

multiFuzzyMatchAnyIndex

multiMatchAllIndices

multiMatchAny

multiMatchAnyIndex

multiSearchAllPositions

multiSearchAllPositionsCaseInsensitive

multiSearchAllPositionsCaseInsensitiveUTF8

multiSearchAllPositionsUTF8

multiSearchAny

multiSearchAnyCaseInsensitive

multiSearchAnyCaseInsensitiveUTF8

multiSearchAnyUTF8

multiSearchFirstIndex

multiSearchFirstIndexCaseInsensitive

multiSearchFirstIndexCaseInsensitiveUTF8

multiSearchFirstIndexUTF8

multiSearchFirstPosition

multiSearchFirstPositionCaseInsensitive

multiSearchFirstPositionCaseInsensitiveUTF8

multiSearchFirstPositionUTF8

ngramDistance

ngramDistanceCaseInsensitive

ngramDistanceCaseInsensitiveUTF8

ngramDistanceUTF8

ngramSearch

ngramSearchCaseInsensitive

ngramSearchCaseInsensitiveUTF8

ngramSearchUTF8

notILike

notLike

position

positionCaseInsensitive

positionCaseInsensitiveUTF8

positionUTF8