跳到主要内容
跳到主要内容

hudiCluster 表函数

这是对 hudi 表函数的扩展。

允许在指定集群中的多个节点上并行处理存储在 Amazon S3 中的 Apache Hudi 表文件。在发起者处,它与集群中的所有节点建立连接,并动态分配每个文件。在工作节点,它向发起者请求下一个要处理的任务并执行。这个过程重复进行,直到所有任务完成。

语法

参数

参数描述
cluster_name用于构建一组远程和本地服务器地址及连接参数的集群名称。
url指向 S3 中现有 Hudi 表的存储桶 URL。
aws_access_key_id, aws_secret_access_keyAWS 账户用户的长期凭证。您可以使用这些凭证来验证请求。这些参数都是可选的。如果未指定凭证,则将使用 ClickHouse 配置中的凭证。有关更多信息,请参见使用 S3 进行数据存储
format文件的 格式
structure表的结构。格式为 'column1_name column1_type, column2_name column2_type, ...'
compression该参数是可选的。支持的值有:nonegzip/gzbrotli/brxz/LZMAzstd/zst。默认情况下,压缩将根据文件扩展名自动检测。

返回值

返回一个具有指定结构的表,以便从指定 S3 中的 Hudi 表读取数据。