Функция табличного типа urlCluster
Позволяет обрабатывать файлы из URL параллельно с многих узлов в указанном кластере. На инициаторе она создает соединение со всеми узлами в кластере, раскрывает символ звездочки в пути к файлу URL и динамически распределяет каждый файл. На рабочем узле она запрашивает у инициатора следующую задачу для обработки и выполняет ее. Это повторяется до тех пор, пока все задачи не будут завершены.
Синтаксис
Аргументы
cluster_name
— Имя кластера, который используется для построения набора адресов и параметров соединения с удаленными и локальными серверами.URL
— Адрес HTTP или HTTPS сервера, который может приниматьGET
запросы. Тип: String.format
— Формат данных. Тип: String.structure
— Структура таблицы в формате'UserID UInt64, Name String'
. Определяет имена и типы колонок. Тип: String.
Возвращаемое значение
Таблица с указанным форматом и структурой и с данными из определенного URL
.
Примеры
Получение первых 3 строк таблицы, которая содержит колонки типа String
и UInt32 с HTTP-сервера, который отвечает в формате CSV.
- Создайте простой HTTP сервер с использованием стандартных инструментов Python 3 и запустите его:
Глобальные шаблоны в URL
Шаблоны в фигурных скобках { }
используются для генерации набора шардов или для указания адресов на случай сбоя. Поддерживаемые типы шаблонов и примеры смотрите в описании функции remote.
Символ |
внутри шаблонов используется для указания адресов на случай сбоя. Они перебираются в том порядке, в котором указаны в шаблоне. Количество генерируемых адресов ограничено настройкой glob_expansion_max_elements.
Смотрите также