hdfsCluster 表函数

允许从指定集群中的多个节点并行处理 HDFS 中的文件。在发起者上，它创建与集群中所有节点的连接，暴露 HDFS 文件路径中的星号，并动态分派每个文件。在工作节点上，它向发起者请求处理的下一个任务并进行处理。这个过程会重复，直到所有任务完成。

语法

hdfsCluster(cluster_name, URI, format, structure)

参数	描述
`cluster_name`	用于构建对远程和本地服务器的地址和连接参数集的集群名称。
`URI`	指向文件或一系列文件的 URI。在只读模式下支持以下通配符：``, `*`, `?`, `{'abc','def'}` 和 `{N..M}`，其中 `N`、`M` 是数字，`abc`、`def` 是字符串。有关更多信息，请参见路径中的通配符。
`format`	文件的格式。
`structure`	表的结构。格式为 `'column1_name column1_type, column2_name column2_type, ...'`。

一个具有指定结构的表，用于读取指定文件中的数据。

SELECT count(*)
FROM hdfsCluster('cluster_simple', 'hdfs://hdfs1:9000/{some,another}_dir/some_file_{1..3}', 'TSV', 'name String, value UInt32')

SELECT count(*)
FROM hdfsCluster('cluster_simple', 'hdfs://hdfs1:9000/{some,another}_dir/*', 'TSV', 'name String, value UInt32')

备注

如果文件列表中包含带前导零的数字范围，请为每个数字单独使用带括号的结构或使用 ?。