メインコンテンツまでスキップ
メインコンテンツまでスキップ

Regexp

入力出力エイリアス

説明

Regex フォーマットは、指定された正規表現に従ってインポートされたデータの各行を解析します。

使用法

format_regexp 設定からの正規表現が、インポートされたデータの各行に適用されます。正規表現のサブパターンの数は、インポートするデータセットのカラムの数と等しくなければなりません。

インポートされたデータの行は、改行文字 '\n' または DOS スタイルの改行 "\r\n" で区切られている必要があります。

一致した各サブパターンの内容は、それに対応するデータ型のメソッドによって解析されます。これはformat_regexp_escaping_rule 設定に従います。

正規表現が行と一致しない場合、且つ format_regexp_skip_unmatched が 1 に設定されていると、その行は静かにスキップされます。それ以外の場合は、例外がスローされます。

使用例

以下のファイル data.tsv を考えます:

およびテーブル imp_regex_table

上記のファイルからデータをテーブルに挿入するために、次のクエリを使用します:

次に、テーブルからデータを SELECT して、Regex フォーマットがファイルからのデータをどのように解析したかを確認します:

フォーマット設定

Regexp フォーマットを使用する際に、次の設定を使用できます:

  • format_regexpStringre2 フォーマットの正規表現が含まれています。

  • format_regexp_escaping_ruleString。次のエスケープルールがサポートされています:

    • CSV (CSV と類似)
    • JSON (JSONEachRow と類似)
    • Escaped (TSV と類似)
    • Quoted (Values と類似)
    • Raw(サブパターンをそのまま抽出し、エスケープルールなし、TSVRaw と類似)
  • format_regexp_skip_unmatchedUInt8format_regexp の式がインポートされたデータと一致しない場合に例外をスローする必要があるかどうかを定義します。 0 または 1 に設定できます。