テキストインデックスによる全文検索
テキストインデックス(inverted indexes とも呼ばれます)は、テキストデータに対する高速な全文検索を可能にします。 テキストインデックスは、トークンから、それぞれのトークンを含む行番号への対応関係を格納します。 トークンは、トークナイゼーションと呼ばれる処理によって生成されます。 たとえば、ClickHouse のデフォルトトークナイザーは、英語の文 "The cat likes mice." をトークン ["The", "cat", "likes", "mice"] に変換します。
例として、1 つのカラムと 3 行を持つテーブルを考えます。
対応するトークンは以下のとおりです:
通常、検索は大文字小文字を区別しない形で行うため、トークンを小文字化します。
また、「I」「the」「and」などの、ほぼすべての行に出現する語も削除します。
(概念的には)テキスト索引には次のような情報が含まれます。
検索トークンが与えられると、この索引構造によって一致するすべての行を高速に検索できます。
テキスト索引の作成
テキスト索引は ClickHouse バージョン 26.2 以降で一般提供 (GA) されています。 これらのバージョンでは、テキスト索引を使用するために特別な設定は不要です。 本番環境では ClickHouse バージョン 26.2 以上の使用を強く推奨します。
テキスト索引は、compatibility 設定に関係なく、ClickHouse バージョン >= 26.2 であれば使用できます。
テキスト索引を作成するには、次の構文を使用します。
テキスト索引は、次の型のカラムに定義できます。
- String および FixedString、
- Array(String) および Array(FixedString)、
- Map (mapKeys および mapValues 関数を通じて) 、
- JSON (JSONAllPaths および
JSONAllValues関数を通じて) 。
Nullable(T) 型および LowCardinality() 型のカラムもサポートされており、Array(Nullable(String または FixedString)) も含まれます。
別の方法として、既存のテーブルにテキスト索引を追加するには、次のようにします:
既存のテーブルに索引を追加する場合、既存テーブルのパーツに対してその索引をマテリアライズすることを推奨します (そうしないと、索引のないパーツでの検索は低速な総当たりスキャンにフォールバックしてしまいます) 。
テキスト索引を削除するには、次のコマンドを実行します。
トークナイザー 引数 (必須) 。tokenizer 引数でトークナイザーを指定します。
splitByNonAlphaは、英数字ではない ASCII 文字で文字列を分割します (関数 splitByNonAlpha を参照) 。splitByString(S)は、ユーザー定義のセパレーター文字列Sで文字列を分割します (関数 splitByString を参照) 。 セパレーターはオプション引数で指定できます。たとえばtokenizer = splitByString([', ', '; ', '\n', '\\'])のように指定します。 各セパレーター文字列は複数文字から構成できる点に注意してください (この例では', ') 。 セパレーターリストを明示的に指定しない場合 (たとえばtokenizer = splitByString) 、デフォルトのセパレーターリストは空白 1 文字[' ']です。asciiCJKは、Unicode の単語境界規則 (Unicode Text Segmentation (UAX #29) に類似) を使用して文字列をトークンに分割します。ASCII の英数字とアンダースコアは、コネクタ (文字には ASCII:、同種の文字には.と') とともにトークンを構成します。CJK 文字を含む非 ASCII の Unicode 文字は 1 文字のトークンになります。ngrams(N)は、文字列を同じ長さのN-gram に分割します (関数 ngrams を参照) 。 N-gram の長さは 1 から 8 までの整数をオプション引数として指定できます。たとえばtokenizer = ngrams(3)のように指定します。 N-gram のサイズを明示的に指定しない場合 (たとえばtokenizer = ngrams) 、デフォルトのサイズは 3 です。sparseGrams(min_length, max_length, min_cutoff_length)は、min_length以上max_length以下 (両端を含む) の長さを持つ可変長の n-gram に文字列を分割します (関数 sparseGrams を参照) 。min_lengthとmax_lengthは、明示的に指定しない場合はそれぞれ 3 と 100 がデフォルト値です。 パラメータmin_cutoff_lengthを指定すると、長さがmin_cutoff_length以上の n-gram のみが返されます。ngrams(N)と比較して、sparseGramsトークナイザーは可変長の N-gram を生成するため、元のテキストをより柔軟に表現できます。 たとえば、tokenizer = sparseGrams(3, 5, 4)は内部的には入力文字列から 3-, 4-, 5-gram を生成しますが、返されるのは 4-gram と 5-gram のみです。arrayはトークナイズ処理を行いません。つまり、各行の値全体が 1 つのトークンになります (関数 array を参照) 。
利用可能なすべてのトークナイザーは system.tokenizers に一覧表示されています。
splitByString トークナイザーは、左から右へ順にセパレーターを適用します。
これにより曖昧さが生じる場合があります。
たとえば、セパレーター文字列を ['%21', '%'] と指定すると、%21abc は ['abc'] にトークナイズされますが、両方のセパレーター文字列を入れ替えて ['%', '%21'] とすると、出力は ['21abc'] になります。
多くの場合、より長いセパレーターが優先的にマッチすることが望ましいです。
これは一般に、セパレーター文字列を長さの降順で指定することで実現できます。
セパレーター文字列が prefix code を構成している場合は、任意の順序で指定できます。
トークナイザーが入力文字列をどのように分割したかを確認するには、tokens 関数と tokensForLikePattern 関数を使用できます。
例:
結果:
非 ASCII 入力の扱い。
テキスト索引は、任意の言語や文字セットのテキストデータに対して構築できます。
非 ASCII テキストについては、CJK 文字を含む Unicode の単語境界を正しく処理できる asciiCJK トークナイザーの使用を推奨します。
:::
プリプロセッサ 引数 (オプション)。プリプロセッサとは、トークナイズの前に入力文字列に適用される式を指します。
プリプロセッサ 引数の典型的なユースケースには次のようなものがあります。
- 小文字化/大文字化、またはケースフォールディングを行い、大文字小文字を区別しないマッチングを有効にします。例: lower、lowerUTF8、caseFoldUTF8。
- UTF-8 正規化。例: normalizeUTF8NFC、normalizeUTF8NFD、normalizeUTF8NFKC、normalizeUTF8NFKD、normalizeUTF8NFKCCasefold、toValidUTF8。
- アクセント記号などの不要な文字や部分文字列の削除または変換。例: extractTextFromHTML、substring、idnaEncode、translate、removeDiacriticsUTF8。
preprocessor 式は、String 型または FixedString 型の入力値を、同じ型の値に変換しなければなりません。
テキストインデックスが Nullable(T) 型または LowCardinality(T) 型のカラム上に作成されている場合、preprocessor 式は Nullable または LowCardinality の値も受け付ける必要があります (つまり、例外をスローしてはなりません) 。
例:
INDEX idx(col) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = lower(col))INDEX idx(col) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = substringIndex(col, '\n', 1))INDEX idx(col) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = lower(extractTextFromHTML(col)))INDEX idx(col) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = removeDiacriticsUTF8(caseFoldUTF8(col)))
また、preprocessor 式は、テキストインデックスが定義されているカラムまたは式のみを参照しなければなりません。
例:
INDEX idx(lower(col)) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = upper(lower(col)))INDEX idx(lower(col)) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = concat(lower(col), lower(col)))- 許可されない例:
INDEX idx(lower(col)) TYPE text(tokenizer = 'splitByNonAlpha', preprocessor = concat(col, col))
非決定的関数の使用は許可されていません。
関数 hasToken、hasAllTokens、hasAnyTokens は、トークン化する前に検索語句を変換するために preprocessor を使用します。
例えば、
は以下と同等です:
この場合、プリプロセッサ式は配列の各要素を個別に変換します。
例:
Map 型カラム上のテキスト索引用プリプロセッサを定義するには、索引を
Map のキーに対して作成するか、値に対して作成するかを決める必要があります。
例:
その他の引数 (オプション) 。
オプションの高度なパラメータ
以下の高度なパラメータのデフォルト値は、ほぼすべての状況で適切に機能します。 これらを変更することは推奨しません。
オプションのパラメータ dictionary_block_size (デフォルト: 512) は、Dictionary ブロックのサイズを行数で指定します。
オプションのパラメータ dictionary_block_frontcoding_compression (デフォルト: 1) は、Dictionary ブロックで圧縮方式として front coding を使用するかどうかを指定します。
オプションのパラメータ posting_list_block_size (デフォルト: 1048576) は、posting list ブロックのサイズを行数で指定します。
オプションのパラメータ posting_list_codec (デフォルト: none) は、posting list のコーデックを指定します:
none- posting list を追加の圧縮なしで保存します。bitpacking- 差分 (デルタ) 符号化 を適用し、その後に bit-packing を適用します (いずれも固定サイズのブロックごと)。SELECT クエリを低速化するため、現時点では推奨されません。
索引の粒度。 テキスト索引は、ClickHouse 内では skip indexes の一種として実装されています。 ただし、他の skip 索引とは異なり、テキスト索引は無限の粒度 (1 億) を使用します。 これはテキスト索引のテーブル定義で確認できます。
例:
結果:
非常に大きな索引の粒度により、テキスト索引はパーツ全体に対して作成されます。 明示的に指定された索引の粒度は無視されます。
テキスト索引の使用
SELECT クエリでテキスト索引を利用するのは容易で、一般的な文字列検索関数は自動的にその索引を活用します。 カラムまたはテーブルパーツに索引が存在しない場合、文字列検索関数は低速な総当たりスキャンにフォールバックします。
テキスト索引の検索には hasAnyTokens と hasAllTokens 関数の使用を推奨します。詳しくは下記を参照してください。
これらの関数は、利用可能なすべてのトークナイザーおよびあらゆるプリプロセッサ式と連携して動作します。
他の対応関数は、歴史的にテキスト索引より先に存在していたため、多くの場合で従来の動作(例: プリプロセッサの未対応)を維持する必要があります。
サポートされている関数
WHERE 句または PREWHERE 句でテキスト関数が使用されている場合、テキストインデックスを使用できます。
=
= (equals) は、指定された検索語全体にマッチします。
例:
IN
IN (in) は equals 関数と似ていますが、すべての検索語にマッチします。
例:
NOT IN (notIn) はテキスト索引ではサポートされていません。
LIKE および match
これらの関数がテキスト索引をフィルタリングに利用するのは、インデックスの トークナイザー が splitByNonAlpha、ngrams、または sparseGrams のいずれかである場合に限られます。
NOT LIKE (notLike) はテキスト索引ではサポートされません。
テキスト索引で LIKE (like) および match 関数を使用するには、ClickHouse が検索語から完全なトークンを抽出できる必要があります。
ngrams トークナイザー を持つインデックスでは、ワイルドカードの間にある検索文字列の長さが ngram の長さ以上であれば、この条件を満たします。
splitByNonAlpha トークナイザー を持つテキスト索引の例:
support の例では、support、supports、supporting などにマッチし得ます。
この種のクエリは部分文字列クエリであり、テキスト索引によって高速化することはできません。
LIKE クエリでテキスト索引を活用するには、LIKE パターンを次のように書き換える必要があります。
support の左右に空白を入れておくことで、その語をトークンとして抽出できるようにします。
幸い、ClickHouse が転置索引を利用して LIKE クエリを大幅に高速化できる特別なケースがあります。
詳しくは、LIKE/ILIKE パフォーマンスチューニングのセクションを参照してください。
startsWith と endsWith
LIKE と同様に、関数 startsWith と endsWith は、検索語から完全なトークンを抽出できる場合にのみテキストインデックスを使用できます。
ngrams トークナイザーを使用するインデックスでは、ワイルドカードの間にある検索文字列の長さが ngram の長さ以上である場合に、この条件を満たします。
splitByNonAlpha トークナイザーを用いたテキストインデックスの例:
この例では、clickhouse だけがトークンとして扱われます。
support は support、supports、supporting などにマッチする可能性があるため、トークンとは見なされません。
clickhouse supports で始まるすべての行を検索するには、検索パターンの末尾にスペースを付けてください。
同様に、endsWith を使用する場合は、先頭にスペース(空白)を付けてください。
hasToken および hasTokenOrNull
関数 hasToken は一見すると扱いやすそうに見えますが、デフォルト以外のトークナイザや preprocessor 式を使用する場合にいくつかの落とし穴があります。
代わりに関数 hasAnyTokens および hasAllTokens を使用することを推奨します。
関数 hasToken と hasTokenOrNull は、指定された 1 つのトークンとの照合を行います。
前述の関数とは異なり、検索語句をトークン化しません(入力が 1 つのトークンであることを前提とします)。
例:
hasAnyTokens と hasAllTokens
関数 hasAnyTokens と hasAllTokens は、指定されたトークンのいずれか、またはすべてにマッチします。
これら 2 つの関数では、検索トークンは、索引用カラムに対して使用されているものと同じトークナイザでトークナイズされる文字列として指定するか、あるいは検索前にトークナイズを行う必要のない、すでに処理済みのトークン配列として指定できます。 詳細は各関数のドキュメントを参照してください。
例:
hasPhrase
関数 hasPhrase はフレーズに対して照合を行います。すべてのトークンが連続して、かつ検索文字列と同じ順序で現れる必要があります。
すべてのトークンがどこかに含まれていればよい hasAllTokens とは異なり、hasPhrase ではそれらが連続した並びとして現れる必要があります。
検索フレーズは、インデックスカラムに設定されたものと同じトークナイザーを使用してトークン化されます。
この関数では、splitByNonAlpha、splitByString、ngrams、asciiCJK のいずれかのトークナイザーが必要であることに注意してください。
例:
has
配列関数 has は、文字列の配列に含まれる単一のトークンに対してマッチします。
例:
mapContains
mapContains 関数(mapContainsKey のエイリアス)は、検索対象の文字列から抽出されたトークンを map のキーと照合します。
動作は、String カラムに対する equals 関数と同様です。
テキストインデックスが使用されるのは、mapKeys(map) 式に対して作成されている場合のみです。
例:
mapContainsValue
mapContainsValue 関数は、検索対象文字列から抽出されたトークンがマップの値に含まれるかどうかを照合します。
挙動は、String カラムに対する equals 関数と類似しています。
テキストインデックスは、mapValues(map) 式に対して作成されている場合にのみ使用されます。
例:
mapContainsKeyLike と mapContainsValueLike
関数 mapContainsKeyLike と mapContainsValueLike は、マップのすべてのキー(または値)を対象に、パターンとの照合を行います。
例:
operator[]
アクセス用の operator[] は、テキスト索引と組み合わせて使用することで、キーや値をフィルタリングできます。テキスト索引が使用されるのは、mapKeys(map) または mapValues(map)、あるいはその両方の式に対して作成されている場合のみです。
例:
テキスト索引と併用する Array(T) 型および Map(K, V) 型カラムの例を以下に示します。
Array(String) カラムのインデックス化
ブログプラットフォームを想像してください。そこでは、著者がブログ記事にキーワードを付けてカテゴリ分けしています。 ユーザーには、トピックを検索したりクリックしたりすることで、関連コンテンツを見つけてほしいと考えています。
次のテーブル定義を考えてみてください:
テキスト索引がない場合、特定のキーワード (例:clickhouse) を含む投稿を検索するには、すべてのエントリを走査する必要があります。
プラットフォームが成長するにつれて、クエリはすべての行の keywords 配列を走査しなければならないため、処理がますます遅くなっていきます。
このパフォーマンス上の問題を解消するために、カラム keywords に対してテキスト索引を定義します。
Map カラムのインデックス作成
多くのオブザーバビリティのユースケースでは、ログメッセージは「コンポーネント」に分割され、タイムスタンプには日時型、ログレベルには enum 型など、適切なデータ型として保存されます。 メトリクスフィールドは、キーと値のペアとして保存するのが最適です。 運用チームは、デバッグ、セキュリティインシデント、監視のために、ログを効率的に検索する必要があります。
次のような logs テーブルを考えてみます:
テキスト索引がない場合、Map データを検索するにはテーブル全体をフルスキャンする必要があります。
ログ量が増えるにつれて、これらのクエリは遅くなります。
解決策は、Map のキーおよび値に対してテキスト索引を作成することです。 フィールド名や属性タイプでログを検索したい場合は、mapKeys を使用してテキスト索引を作成します。
属性の実際の内容を検索する必要がある場合は、mapValues を使用してテキスト索引を作成します。
クエリの例:
JSONカラムのインデックス化
JSON カラムでは、テキスト索引を 3 つの方法で利用できます。
- 特定のサブカラムに対するインデックス — 通常のカラムと同様に、既知の JSON パスにテキスト索引を作成します。これにより、そのパスの 値 がインデックス化されます。
- JSONAllPaths を使用したパスベースのインデックス — 各グラニュールに存在する すべてのパス をインデックス化し、クエリ対象のパスを含む可能性がないグラニュールをスキップします。
Mapカラムと同様です。 - JSONAllValues を使用した値ベースのインデックス — すべての JSON パスにまたがる すべての値 をインデックス化し、単一のインデックスで任意の JSON サブカラムに対する全文検索を高速化します。
特定のサブカラムに対する索引
通常のカラムと同じ構文で、任意の JSON サブカラムにスキップ索引を作成できます。
索引式で JSON サブカラムを参照する方法は 2 つあります。
- 型付きパス — JSON 型ヒントで宣言し、名前で直接アクセスします:
json.a. - 動的パス (明示的なキャストあり) —
::キャスト構文を使用します:json.b::String.
索引定義の例:
クエリ例:
結果:
クエリ例:
結果:
JSONAllPaths によるパスベース索引
Map カラムと同様に、JSON カラムにも JSONAllPaths を使用してテキスト索引を作成できます。
この索引は各グラニュールに含まれる JSON パスの集合を保持し、クエリ対象のパスが存在しないグラニュールをスキップするために利用します。
索引定義の例:
EXPLAIN indexes = 1 を使用すると、スキップ索引が使われていることを確認できます。
パスが1つのパートにしか存在しない場合、索引はもう一方のパートをスキップします。
例:
結果:
どのパーツにもパスが存在しない場合、すべてのパーツとグラニュールがスキップされます。
例:
結果:
IS NOT NULL でも索引が使用され、パスが存在しないグラニュールは (その場合、値は NULL になるため) スキップされます。
例:
結果:
JSONAllValues を使用した値ベースの索引
テキスト索引は、関数 JSONAllValues を介して JSON カラムの検索を高速化するために使用できます。
JSONAllValues は、JSON カラムのすべての値を Array(String) として返します。
文字列以外のデータ型の値 (例: 整数や配列) は、そのテキスト表現に変換されます。
JSONAllValues に対するテキスト索引は、各行のすべての JSON パスにまたがって、これらのテキスト表現を索引付けします。
この索引は、その後、個々の JSON サブカラムで絞り込むクエリを高速化できます。
クエリが特定のサブカラム (例: data.user_name = 'alice') で絞り込む場合、テキスト索引は、JSON 値のいずれにも検索トークンが含まれていない行 (およびグラニュール) をすばやくスキップできます。
異なる JSON パスに同じトークンが含まれている場合、この索引は偽陽性を返すことがあります。
たとえば、行 1 が {"a": "hello", "b": "world"} を持ち、クエリで data.a = 'world' を検索する場合、テキスト索引は world がパス a ではなく b に属していることを区別できません。
このような場合、索引はその行をスキップせず、最終的な評価は実際のカラムデータに対するフィルタリングで行われます。
これは、索引が高速な事前フィルターとして機能する、他のテキスト索引の利用ケースと同じ動作です。
索引の作成
索引の定義例:
サポートされるクエリパターン
索引を作成すると、JSONサブカラムに対するクエリは、String カラムと同じ関数、およびすべてのカラムで equals 関数を使用した場合に高速化できます。
サブカラムへのアクセス:
明示的な CAST によるサブカラムアクセス:
IN 演算子:
フレーズ検索
テキスト索引は、hasPhrase 関数によるフレーズ検索をサポートしています。
フレーズ内のすべてのトークンは、ドキュメント内で連続して同じ順序で出現する必要があります。
テキスト索引は、フレーズ内のすべてのトークンのポスティングリストを交差させて候補となるグラニュールを特定することで、フレーズ検索を高速化します。 その後、ClickHouse はそれらのグラニュール内でトークンが正確に隣接していることを検証します。
hasPhrase は、トークナイザー splitByNonAlpha、splitByString、ngrams、asciiCJK でサポートされています。
フレーズ文字列は、索引に設定されたトークナイザーでトークン化されます。
フレーズ内のトークナイザーの区切り文字は無視されます。splitByNonAlpha トークナイザーでは、hasPhrase(text, 'quick+brown') は hasPhrase(text, 'quick brown') と同等です。
例
結果:
2 行目 ('New weather in York') は、トークンの順序が異なるため一致しません。
3 行目 ('weather in New Orleans') は、トークン 'York' が含まれていないため一致しません。
パフォーマンスチューニング
ダイレクトリード
特定の種類のテキストクエリは、「ダイレクトリード」と呼ばれる最適化によって大幅に高速化されます。
例:
ClickHouse における ダイレクトリード 最適化は、基盤となるテキストカラムにアクセスせず、テキスト索引 (つまりテキスト索引ルックアップ) だけを用いてクエリに応答します。 テキスト索引ルックアップは比較的少量のデータしか読み込まないため、通常の ClickHouse のスキップ索引 (スキップ索引のルックアップの後に、残りのグラニュールの読み込みとフィルタリングを行う) よりもはるかに高速です。
ダイレクトリード は次の 2 つの設定で制御されます。
- Setting query_plan_direct_read_from_text_index (デフォルトで true) 。ダイレクトリード を全般的に有効にするかどうかを指定します。
- Setting use_skip_indexes_on_data_read は、ClickHouse バージョン < 26.4 では ダイレクトリード の前提条件でした。
サポートされる関数
ダイレクトリード 最適化は、関数 hasToken、hasAllTokens、および hasAnyTokens をサポートします。
テキスト索引が array トークナイザー で定義されている場合、関数 equals、has、mapContainsKey、mapContainsValue に対しても ダイレクトリード がサポートされます。
これらの関数は、AND、OR、NOT 演算子で組み合わせることもできます。
WHERE または PREWHERE 句には、 (テキストカラムまたは他のカラムに対する) 追加の非テキスト検索関数によるフィルタを含めることもできます。この場合でも ダイレクトリード 最適化は使用されますが、その効果は低くなります (サポートされているテキスト検索関数にのみ適用されるためです) 。
あるクエリが ダイレクトリード を利用しているかを確認するには、そのクエリを EXPLAIN PLAN actions = 1 付きで実行します。
例として、ダイレクトリード を無効にしたクエリは
戻り値
一方、同じクエリを query_plan_direct_read_from_text_index = 1 を指定して実行すると
戻り値
2つ目の EXPLAIN PLAN の出力には、仮想カラム __text_index_<index_name>_<function_name>_<id> が含まれます。
このカラムが存在する場合は、ダイレクトリード が使用されています。
WHERE 句のフィルタがテキスト検索関数のみで構成されている場合、クエリはカラムデータの読み取り自体を完全に回避でき、ダイレクトリード によって最大のパフォーマンス向上が得られます。 ただし、クエリ内の他の箇所でテキストカラムにアクセスしている場合でも、ダイレクトリード により依然としてパフォーマンス改善が見込めます。
ヒントとしての ダイレクトリード
ヒントとしての ダイレクトリード は、通常の ダイレクトリード と同じ原理に基づきますが、基礎となるテキストカラムは削除せずに、テキスト索引のデータから構築された追加フィルタを適用する点が異なります。 これは、テキスト索引のみを読んだ場合に誤検出 (false positive) が発生しうる関数に対して使用されます。
サポートされている関数は、like、startsWith、endsWith、equals、has、hasPhrase、mapContainsKey、mapContainsValue です。
この追加フィルタにより、他のフィルタと組み合わせて結果セットをさらに絞り込むための追加の選択性が得られ、他のカラムから読み取るデータ量を削減するのに役立ちます。
ヒントとしての ダイレクトリード は、query_plan_text_index_add_hint (デフォルトで有効) を設定することで制御できます。
ヒントを使用しないクエリの例:
戻り値
一方、同じクエリを query_plan_text_index_add_hint = 1 に設定して実行した場合は
戻り値
2つ目の EXPLAIN PLAN の出力では、フィルター条件に追加の連言条件 (__text_index_...) が加えられていることが分かります。
PREWHERE 最適化により、フィルター条件は3つの個別の連言条件に分解され、計算コストが低いものから順に適用されます。
このクエリでは、適用順序は __text_index_...、次に greaterOrEquals(...)、最後に like(...) となります。
この順序付けにより、テキスト索引と元のフィルター条件でスキップされるグラニュールに加えて、クエリの WHERE 句以降で使用される重いカラムを読み込む前に、さらに多くのデータグラニュールをスキップできるため、読み取るデータ量を一層削減できます。
LIKE/ILIKE クエリ
LIKE/ILIKE クエリのパターンが %<alpha-numeric-characters-without-spaces>% で、テキスト索引のトークナイザーが splitByNonAlpha または array の場合、ClickHouse は転置索引を利用して LIKE/ILIKE クエリを大幅に高速化できます。これを実現するため、ClickHouse は一致するパターンを見つける際に、テーブル全体をスキャンする代わりに転置索引の Dictionary をスキャンします。
この最適化を有効にすると、LIKE/ILIKE クエリはテーブル全体のスキャンより大幅に高速になるはずです。ただし、パターンが Dictionary 内のほとんどのトークンに一致する場合は、テーブル全体のスキャンよりもパフォーマンスが低下することがあります。幸い、これを防ぐためのフォールバック機構が用意されています。
この最適化は、次の設定で制御されます。
フォールバック機構は、次の 2 つの設定で制御されます。
この最適化がサポートするのは、関数 like と ilike のみです。
キャッシュ
メモリ内でテキストインデックスの一部をバッファリングするために、さまざまなキャッシュを使用できます(Implementation Details セクションを参照)。 現在、I/O を削減するために、テキストインデックスのデシリアライズ済みヘッダー、トークン、およびポスティングリスト用のキャッシュが用意されています。 これらは、設定 use_text_index_header_cache、use_text_index_tokens_cache、および use_text_index_postings_cache によって有効化できます。
デフォルトでは、すべてのキャッシュは無効になっています。 キャッシュをクリアするには、文 SYSTEM CLEAR TEXT INDEX CACHES を使用します。
キャッシュを構成するには、以下のサーバー設定を参照してください。
Tokens キャッシュの設定
| Setting | Description |
|---|---|
| text_index_tokens_cache_policy | テキストインデックス用 Tokens キャッシュのポリシー名。 |
| text_index_tokens_cache_size | キャッシュの最大サイズ(バイト単位)。 |
| text_index_tokens_cache_max_entries | キャッシュ内のデシリアライズ済み Token の最大数。 |
| text_index_tokens_cache_size_ratio | テキストインデックス用 Tokens キャッシュにおける、キャッシュ全体サイズに対する保護キューサイズの比率。 |
ヘッダーキャッシュの設定
| Setting | 説明 |
|---|---|
| text_index_header_cache_policy | テキストインデックスヘッダーキャッシュのポリシー名。 |
| text_index_header_cache_size | キャッシュの最大サイズ(バイト単位)。 |
| text_index_header_cache_max_entries | キャッシュ内に保持されるデシリアライズ済みヘッダーの最大数。 |
| text_index_header_cache_size_ratio | テキストインデックスヘッダーキャッシュにおける、保護キューのサイズがキャッシュ全体のサイズに対して占める割合。 |
ポスティングリストキャッシュの設定
| Setting | 説明 |
|---|---|
| text_index_postings_cache_policy | テキストインデックスのポスティングリストキャッシュポリシー名。 |
| text_index_postings_cache_size | キャッシュの最大サイズ(バイト単位)。 |
| text_index_postings_cache_max_entries | キャッシュ内のデシリアライズ済みポスティングの最大数。 |
| text_index_postings_cache_size_ratio | テキストインデックスのポスティングリストキャッシュにおける保護キューのサイズが、キャッシュ全体サイズに占める割合。 |
制限事項
テキストインデックスには、現在次のような制限があります。
- トークン数が非常に多いテキストインデックス(例: 100億トークン)をマテリアライズすると、大量のメモリを消費する可能性があります。テキスト
インデックスのマテリアライズは、直接(
ALTER TABLE <table> MATERIALIZE INDEX <index>)行われる場合もあれば、パーツのマージ時に間接的に行われる場合もあります。 - 1つのパーツ内の行数が 4.294.967.296(= 2^32 ≒ 42億)を超える場合、そのパーツ上のテキストインデックスをマテリアライズすることはできません。テキストインデックスがマテリアライズされていない場合、クエリはそのパーツ内での低速な総当たり検索にフォールバックします。最悪の場合の見積もりとして、1つのパーツが String 型の単一カラムだけを持ち、MergeTree の設定項目
max_bytes_to_merge_at_max_space_in_pool(デフォルト: 150 GB)が変更されていないと仮定します。この場合、そのカラムの1行あたりの平均文字数が 29.5 文字未満であれば、上記の状況が発生します。実際には、テーブルは他のカラムも含んでいるため、閾値は(他のカラムの数、型、サイズに応じて)その何分の一にも小さくなります。
テキストインデックスと Bloom Filter ベースのインデックス
文字列述語はテキストインデックスと Bloom Filter ベースのインデックス(インデックスタイプ bloom_filter, ngrambf_v1, tokenbf_v1, sparse_grams)を使って高速化できますが、両者は設計と想定されるユースケースが根本的に異なります。
Bloom Filter インデックス
- 確率的データ構造に基づいており、偽陽性が発生する可能性があります。
- 集合への所属、すなわち「カラムにトークン X が含まれる可能性があるか vs. X を含まないことが確実か」といった問いにのみ答えることができます。
- クエリ実行時に大まかな範囲スキップを可能にするため、granule 単位の情報を保存します。
- 適切にチューニングするのが難しいです(例についてはこちらを参照)。
- 比較的コンパクトです(パートあたり数キロバイトから数メガバイト程度)。
テキストインデックス
- トークンに対して決定論的な転置インデックスを構築します。インデックス自体が偽陽性を発生させることはありません。
- テキスト検索ワークロード向けに特化して最適化されています。
- 行レベルの情報を保持し、効率的なトークンのルックアップを可能にします。
- 比較的大きくなります(パートあたり数十〜数百メガバイト)。
Bloom Filter ベースのインデックスは、フルテキスト検索をあくまで「副次的な結果」としてのみサポートします。
- 高度なトークナイズや前処理をサポートしません。
- 複数トークンの検索をサポートしません。
- 転置インデックスに期待される性能特性を提供しません。
一方でテキストインデックスは、フルテキスト検索のために専用設計されています。
- トークナイズおよび前処理を提供します。
hasAllTokens,LIKE,matchなどのテキスト検索関数を効率的にサポートします。- 大規模なテキストコーパスに対して、はるかに優れたスケーラビリティを持ちます。
実装の詳細
各テキスト索引は、2 つの (抽象的な) データ構造から構成されます:
- 各トークンをポスティングリストにマッピングする dictionary と、
- 各々が行番号の集合を表す複数のポスティングリストの集合。
テキスト索引はパーツ全体に対して構築されます。 他のスキップ索引と異なり、テキスト索引はデータパーツをマージする際に再構築するのではなく、マージすることができます (下記参照) 。
索引の作成時には、3 つのファイルが生成されます (パーツごと) :
Dictionary blocks ファイル (.dct)
テキスト索引内のトークンはソートされ、各 512 トークンの dictionary ブロックに格納されます (ブロックサイズはパラメータ dictionary_block_size によって設定可能です) 。
Dictionary blocks ファイル (.dct) は、そのパーツ内のすべての索引グラニュールに含まれる dictionary ブロックから構成されます。
Index header ファイル (.idx)
Index header ファイルには、各 dictionary ブロックについて、そのブロックの最初のトークンと dictionary blocks ファイル内での相対オフセットが含まれます。
このスパース索引構造は、ClickHouse の sparse primary key index と類似しています。
ポスティングリスト ファイル (.pst)
すべてのトークンに対するポスティングリストは、ポスティングリスト ファイル内に連続して配置されます。
空間を節約しつつ高速な積集合および和集合演算を可能にするため、ポスティングリストは roaring bitmaps として格納されます。
ポスティングリストが posting_list_block_size より大きい場合、それは複数のブロックに分割され、ポスティングリスト ファイル内に連続して格納されます。
テキスト索引のマージ
データパーツがマージされるとき、テキスト索引を最初から再構築する必要はなく、代わりにマージ処理の別ステップで効率的にマージできます。
このステップでは、各入力パーツのテキスト索引のソート済み dictionary が読み込まれ、新しい統合 dictionary に結合されます。
ポスティングリスト内の行番号も、初期マージフェーズ中に作成される旧行番号から新行番号へのマッピングを用いて、マージ後のデータパーツ内での新しい位置を反映するよう再計算されます。
このテキスト索引のマージ方式は、_part_offset カラムを持つ projections がマージされる方法と似ています。
ソースパーツ内で索引がマテリアライズされていない場合、それは構築され、一時ファイルに書き出された後、他のパーツおよび他の一時索引ファイルの索引とともにマージされます。
デバッグ
テーブル関数 mergeTreeTextIndex は、テキスト索引をインスペクトするために使用できます。
例: Hackernews データセット
大量のテキストを含む大規模データセットに対するテキスト索引のパフォーマンス向上を確認します。 人気サイト Hacker News 上のコメント 2,870 万行を使用します。 以下はテキスト索引を定義していないテーブルです:
約 2,870 万行のデータは S3 上の Parquet ファイルに格納されています。これらを hackernews テーブルに挿入しましょう。
ALTER TABLE を使用して comment カラムにテキスト索引を追加し、その後マテリアライズします。
では、hasToken、hasAnyTokens、hasAllTokens 関数を使ってクエリを実行してみましょう。
次の例では、標準的な索引スキャンと直接読み取り最適化を比較した際の、劇的なパフォーマンス差を示します。
1. hasToken の使用
hasToken は、テキストに特定の 1 つのトークンが含まれているかどうかを確認します。
ここでは大文字小文字を区別してトークン 'ClickHouse' を検索します。
ダイレクトリード無効化(標準スキャン) デフォルトでは、ClickHouse はスキップ索引を使ってグラニュールをフィルタリングし、その後それらのグラニュールのカラムデータを読み取ります。 この挙動は、ダイレクトリードを無効にすることで再現できます。
ダイレクトリード有効時(Fast index read) ここでは、ダイレクトリードを有効にした状態(デフォルト)で、同じクエリを実行します。
ダイレクトリードクエリは 45 倍以上高速で (0.362 秒 対 0.008 秒)、インデックスだけを読み取ることで処理するデータ量も大幅に削減されます (9.51 GB 対 3.15 MB)。
2. hasAnyTokens を使用する
hasAnyTokens は、テキストに指定したトークンのうち少なくとも 1 つが含まれているかどうかを判定します。
ここでは、'love' または 'ClickHouse' のいずれかを含むコメントを検索します。
Direct read 無効 (標準スキャン)
ダイレクトリードの有効化 (索引の高速読み取り)
この一般的な「OR」検索では、高速化の度合いはさらに顕著です。 フルカラムスキャンを回避することで、クエリはほぼ89倍高速になります (1.329秒 vs 0.015秒) 。
3. hasAllTokens の使用
hasAllTokens は、テキストが指定されたトークンをすべて含んでいるかどうかをチェックします。
ここでは、love と ClickHouse の両方を含むコメントを検索します。
ダイレクトリード無効 (標準スキャン) ダイレクトリードを無効化していても、標準のスキップ索引は引き続き機能します。 28.7M 行をわずか 147.46K 行まで絞り込みますが、それでもカラムから 57.03 MB を読み取る必要があります。
ダイレクトリード有効 (高速な索引読み取り) ダイレクトリードでは索引データ上で処理を行うことでクエリに応答し、147.46 KB 分のデータしか読み取りません。
この「AND」条件の検索では、ダイレクトリード最適化のほうが標準的なスキップ索引スキャンよりも 26 倍以上高速 (0.184s 対 0.007s) です。
4. 複合検索: OR、AND、NOT、...
ダイレクトリードの最適化は、複合ブール式にも適用されます。 ここでは、「ClickHouse」または「clickhouse」を対象に、大文字と小文字を区別しない検索を行います。
ダイレクトリード無効 (標準スキャン)
ダイレクトリードを有効化 (索引の高速読み取り)
索引からの結果を組み合わせることで、直接読み出しクエリは 34 倍高速 (0.450s 対 0.013s) になり、9.58 GB のカラムデータを読み取る必要がなくなります。
このケースでは、hasAnyTokens(comment, ['ClickHouse', 'clickhouse']) が、より効率的で推奨される構文となります。
関連情報
- プレゼンテーション: https://github.com/ClickHouse/clickhouse-presentations/blob/master/2025-tumuchdata-munich/ClickHouse_%20full-text%20search%20-%2011.11.2025%20Munich%20Database%20Meetup.pdf
- プレゼンテーション: https://presentations.clickhouse.com/2026-fosdem-inverted-index/Inverted_indexes_the_what_the_why_the_how.pdf
古い資料