文字列分割のための関数
splitByChar
指定された文字で区切られた部分文字列に文字列を分割します。正確に1文字からなる定数文字列 separator
を使用します。
選択された部分文字列の配列を返します。区切り文字が文字列の先頭または末尾に存在する場合、または複数の連続した区切り文字がある場合、空の部分文字列が選ばれることがあります。
構文
引数
separator
— 区切り文字は1バイトの文字でなければなりません。String。s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される配列は最大でmax_substrings
の部分文字列を含みます。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
空の部分文字列が選ばれることがあるのは次の場合です:
- 区切り文字が文字列の先頭または末尾に存在する場合;
- 複数の連続した区切り文字がある場合;
- 元の文字列
s
が空の場合。
パラメータ max_substrings
の動作は ClickHouse v22.11 から変更されました。それ以前のバージョンでは、max_substrings
が > 0 の場合、max_substring
回だけ分割が行われ、文字列の残りがリストの最終要素として返されました。
例:
- v22.10 の場合:
SELECT splitByChar('=', 'a=b=c=d', 2);
は['a','b','c=d']
を返しました。 - v22.11 の場合:
SELECT splitByChar('=', 'a=b=c=d', 2);
は['a','b']
を返しました。
ClickHouse v22.11以前のような動作を実現するには、
splitby_max_substrings_includes_remaining_string
を設定します。
SELECT splitByChar('=', 'a=b=c=d', 2) SETTINGS splitby_max_substrings_includes_remaining_string = 1 -- ['a', 'b=c=d']
例
結果:
splitByString
文字列を文字列で区切られた部分文字列に分割します。複数の文字からなる定数文字列 separator
を区切りとして使用します。separator
が空の場合は、文字列 s
を単一文字の配列に分割します。
構文
引数
separator
— 区切り文字。String。s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される部分文字列は最大でmax_substrings
になります。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
空の部分文字列が選ばれることがあるのは次の場合です:
- 空でない区切り文字が文字列の先頭または末尾に存在する場合;
- 複数の連続した空でない区切り文字がある場合;
- 元の文字列
s
が空で、区切り文字が空でない場合。
splitby_max_substrings_includes_remaining_string を設定することで(デフォルト: 0)、引数 max_substrings
が > 0 の場合に結果配列の最後の要素に残りの文字列が含まれるかどうかを制御できます。
例
結果:
結果:
splitByRegexp
文字列を正規表現で区切られた部分文字列に分割します。正規表現文字列 regexp
を区切りとして使用します。regexp
が空の場合は、文字列 s
を単一文字の配列に分割します。この正規表現に対して一致が見つからない場合、文字列 s
は分割されません。
構文
引数
regexp
— 正規表現。定数。String または FixedString。s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される部分文字列は最大でmax_substrings
になります。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
-
空でない正規表現の一致が文字列の先頭または末尾に存在する場合;
-
複数の連続した空でない正規表現の一致がある場合;
-
元の文字列
s
が空で、正規表現が空でない場合。
splitby_max_substrings_includes_remaining_string を設定することで(デフォルト: 0)、引数 max_substrings
が > 0 の場合に結果配列の最後の要素に残りの文字列が含まれるかどうかを制御できます。
例
結果:
結果:
splitByWhitespace
文字列を空白文字で区切られた部分文字列に分割します。 選択された部分文字列の配列を返します。
構文
引数
s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される部分文字列は最大でmax_substrings
になります。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
splitby_max_substrings_includes_remaining_string を設定することで(デフォルト: 0)、引数 max_substrings
が > 0 の場合に結果配列の最後の要素に残りの文字列が含まれるかどうかを制御できます。
例
結果:
splitByNonAlpha
文字列を空白や句読点で区切られた部分文字列に分割します。 選択された部分文字列の配列を返します。
構文
引数
s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される部分文字列は最大でmax_substrings
になります。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
splitby_max_substrings_includes_remaining_string を設定することで(デフォルト: 0)、引数 max_substrings
が > 0 の場合に結果配列の最後の要素に残りの文字列が含まれるかどうかを制御できます。
例
arrayStringConcat
配列にリストされた値の文字列表現を区切り文字で連結します。separator
は任意のパラメータで、デフォルトは空文字列に設定されています。
文字列を返します。
構文
例
結果:
alphaTokens
a-z および A-Z の範囲からの連続バイトの部分文字列を選択します。部分文字列の配列を返します。
構文
別名: splitByAlpha
引数
s
— 分割する文字列。String。max_substrings
— 任意のInt64
で、デフォルトは0です。max_substrings
が > 0 の場合、返される部分文字列は最大でmax_substrings
になります。それ以外の場合、関数はできるだけ多くの部分文字列を返します。
返される値
splitby_max_substrings_includes_remaining_string を設定することで(デフォルト: 0)、引数 max_substrings
が > 0 の場合に結果配列の最後の要素に残りの文字列が含まれるかどうかを制御できます。
例
extractAllGroups
正規表現によって一致した重複しない部分文字列からすべてのグループを抽出します。
構文
引数
text
— String または FixedString。regexp
— 正規表現。定数。String または FixedString。
返される値
- 関数が少なくとも1つの一致グループを見つけた場合、
Array(Array(String))
カラムを返し、グループIDでクラスタリングされます(1からNまで、ここでNはregexp
のキャプチャグループの数です)。一致グループがない場合、空の配列を返します。Array。
例
結果:
ngrams
UTF-8 文字列を ngramsize
シンボルの n-gram に分割します。
構文
引数
string
— 文字列。String または FixedString。ngramsize
— n-gram のサイズ。UInt。
返される値
例
結果:
tokens
指定されたトークナイザーを使用して文字列をトークンに分割します。 デフォルトのトークナイザーは、非英数字ASCII文字を区切りとして使用します。
引数
value
— 入力文字列。String または FixedString。tokenizer
— 使用するトークナイザー。有効な引数はdefault
,ngram
,split
, およびno_op
です。オプションで、明示的に設定されていない場合はデフォルトでdefault
になります。const Stringngrams
— 引数tokenizer
がngram
の場合のみ関連します:n-grams の長さを定義するオプションのパラメータです。明示的に設定されていない場合はデフォルトで3
になります。UInt8。separators
— 引数tokenizer
がsplit
の場合のみ関連します:区切り文字列を定義するオプションのパラメータです。明示的に設定されていない場合はデフォルトで[' ']
になります。Array(String)。
split
トークナイザーの場合: トークンが プレフィックスコード を形成しない場合、一致がより長い区切りを優先することを望む場合があります。
そのためには、区切りを長さの降順で渡してください。
例えば、区切りが ['%21', '%']
の場合、文字列 %21abc
は ['abc']
にトークン化されますが、区切りが ['%', '%21']
の場合は ['21ac']
となります(これはおそらく望んでいたものではありません)。
返される値
- 入力文字列からのトークンの結果配列。Array。
例
デフォルトの設定を使用する場合:
結果:
ngram トークナイザーを使用し、ngram の長さを3に設定する場合:
結果: