ORC

Input	Output	Alias
✔	✔

描述

Apache ORC 是一种广泛用于 Hadoop 生态系统的列式存储格式。

下表比较了支持的 ORC 数据类型及其对应的 ClickHouse 数据类型在 INSERT 和 SELECT 查询中的对应关系。

其他类型不受支持。
数组可以嵌套，并可以将 Nullable 类型的值作为参数。Tuple 和 Map 类型也可以嵌套。
ClickHouse 表列的数据类型不必与对应的 ORC 数据字段匹配。插入数据时，ClickHouse 会根据上述表格解释数据类型，然后将数据转换为为 ClickHouse 表列设置的数据类型。

您可以使用以下命令将 ORC 数据从文件插入到 ClickHouse 表中：

您可以使用以下命令从 ClickHouse 表中选择数据并将其保存为 ORC 格式的文件：

设置	描述	默认值
`output_format_arrow_string_as_string`	对于字符串列，使用 Arrow String 类型而不是 Binary。	`false`
`output_format_orc_compression_method`	输出 ORC 格式中使用的压缩方法。默认值	`none`
`input_format_arrow_case_insensitive_column_matching`	匹配 Arrow 列与 ClickHouse 列时忽略大小写。	`false`
`input_format_arrow_allow_missing_columns`	在读取 Arrow 数据时允许缺少列。	`false`
`input_format_arrow_skip_columns_with_unsupported_types_in_schema_inference`	允许在 Arrow 格式的模式推断中跳过不支持的类型的列。	`false`

要与 Hadoop 交换数据，您可以使用 HDFS 表引擎。