Regexp
| Input | Output | Alias |
|---|---|---|
| ✔ | ✗ |
Описание
Формат Regex разбирает каждую строку импортируемых данных в соответствии с предоставленным регулярным выражением.
Использование
Регулярное выражение из настройки format_regexp применяется к каждой строке импортируемых данных. Число подвыражений в регулярном выражении должно быть равно количеству колонок в импортируемом наборе данных.
Строки импортируемых данных должны быть разделены символом новой строки '\n' или новой строкой в стиле DOS "\r\n".
Содержимое каждого совпадающего подвыражения разбирается с помощью метода соответствующего типа данных, в соответствии с настройкой format_regexp_escaping_rule.
Если регулярное выражение не совпадает со строкой, а format_regexp_skip_unmatched установлено в 1, строка будет тихо пропущена. В противном случае будет выброшено исключение.
Пример использования
Рассмотрим файл data.tsv:
и таблицу imp_regex_table:
Мы вставим данные из вышеупомянутого файла в таблицу с помощью следующего запроса:
Теперь мы можем SELECT данные из таблицы, чтобы увидеть, как формат Regex разобрал данные из файла:
Настройки формата
При работе с форматом Regexp вы можете использовать следующие настройки:
-
format_regexp— Строка. Содержит регулярное выражение в формате re2. -
format_regexp_escaping_rule— Строка. Поддерживаются следующие правила экранирования:- CSV (аналогично CSV)
- JSON (аналогично JSONEachRow)
- Escaped (аналогично TSV)
- Quoted (аналогично Values)
- Raw (извлекает подвыражения как целое, без правил экранирования, аналогично TSVRaw)
-
format_regexp_skip_unmatched— UInt8. Определяет необходимость выбрасывать исключение в случае, если выражениеformat_regexpне совпадает с импортируемыми данными. Может быть установлено в0или1.