跳到主要内容
跳到主要内容

urlCluster 表函数

允许从指定集群中的多个节点并行处理来自 URL 的文件。在发起者上,它创建与集群中所有节点的连接,公开 URL 文件路径中的星号,并动态分发每个文件。在工作节点上,它向发起者请求下一个要处理的任务并处理该任务。这个过程会重复,直到所有任务完成。

语法

参数

  • cluster_name — 用于构建与远程和本地服务器的地址和连接参数集的集群名称。
  • URL — 可以接收 GET 请求的 HTTP 或 HTTPS 服务器地址。类型: String
  • format — 数据的 格式。类型: String
  • structure — 表结构,格式为 'UserID UInt64, Name String'。确定列名称和类型。类型: String

返回值

一个具有指定格式和结构的表,且包含来自定义 URL 的数据。

示例

从 HTTP 服务器中获取包含 StringUInt32 类型列的表的前三行,该服务器以 CSV 格式响应。

  1. 使用标准 Python 3 工具创建基本的 HTTP 服务器并启动它:

URL 中的通配符

大括号 { } 中的模式用于生成一组分片或指定故障转移地址。支持的模式类型和示例请参见 remote 函数的描述。 模式中的字符 | 用于指定故障转移地址。它们按在模式中列出的相同顺序进行迭代。生成的地址数量受限于 glob_expansion_max_elements 设置。

另请参见