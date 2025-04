Avro

Apache Avro 是一个行导向的数据序列化框架,在 Apache 的 Hadoop 项目中开发。 ClickHouse 的 Avro 格式支持读取和写入 Avro 数据文件。

The table below shows all data types supported by the Apache Avro format, and their corresponding ClickHouse data types in INSERT and SELECT queries.

* bytes 是默认值,通过设置 output_format_avro_string_column_pattern 控制。

** Variant类型 隐式接受 null 作为字段值,因此,例如 Avro union(T1, T2, null) 将转换为 Variant(T1, T2) 。因此,在从 ClickHouse 生成 Avro 时,我们必须始终将 null 类型包含在 Avro union 类型集中,因为我们不知道在模式推理过程中任何值是否实际为 null 。

*** Avro 逻辑类型

不支持的 Avro 逻辑数据类型:

time-millis

time-micros

duration

要从 Avro 文件插入数据到 ClickHouse 表中:

输入的 Avro 文件的根架构必须是 record 类型。

要找到表列和 Avro 架构字段之间的对应关系,ClickHouse 会比较它们的名称。 这个比较是区分大小写的,未使用的字段会被跳过。

ClickHouse 表列的数据类型可以与插入的 Avro 数据的字段不同。在插入数据时,ClickHouse 会根据上表解释数据类型,然后 转换 数据到相应的列类型。

在导入数据时,当在架构中未找到字段且设置 input_format_avro_allow_missing_fields 已启用时,将使用默认值而不是抛出错误。

要从 ClickHouse 表中选择数据到 Avro 文件:

列名必须:

以 [A-Za-z_] 开头

开头 后续只能包含 [A-Za-z0-9_]

输出的 Avro 文件压缩和同步间隔可以通过设置 output_format_avro_codec 和 output_format_avro_sync_interval 分别配置。

使用 ClickHouse 的 DESCRIBE 函数,可以快速查看 Avro 文件的推断格式,如以下示例所示。 该示例包含 ClickHouse S3 公共存储桶中一个可以公开访问的 Avro 文件的 URL: