ORC
Input | Output | Alias |
---|---|---|
✔ | ✔ |
描述
Apache ORC 是一种广泛用于 Hadoop 生态系统的列式存储格式。
数据类型匹配
下表比较了支持的 ORC 数据类型及其对应的 ClickHouse 数据类型 在 INSERT
和 SELECT
查询中的对应关系。
ORC 数据类型 (INSERT ) | ClickHouse 数据类型 | ORC 数据类型 (SELECT ) |
---|---|---|
Boolean | UInt8 | Boolean |
Tinyint | Int8/UInt8/Enum8 | Tinyint |
Smallint | Int16/UInt16/Enum16 | Smallint |
Int | Int32/UInt32 | Int |
Bigint | Int64/UInt32 | Bigint |
Float | Float32 | Float |
Double | Float64 | Double |
Decimal | Decimal | Decimal |
Date | Date32 | Date |
Timestamp | DateTime64 | Timestamp |
String , Char , Varchar , Binary | String | Binary |
List | Array | List |
Struct | Tuple | Struct |
Map | Map | Map |
Int | IPv4 | Int |
Binary | IPv6 | Binary |
Binary | Int128/UInt128/Int256/UInt256 | Binary |
Binary | Decimal256 | Binary |
- 其他类型不受支持。
- 数组可以嵌套,并可以将
Nullable
类型的值作为参数。Tuple
和Map
类型也可以嵌套。 - ClickHouse 表列的数据类型不必与对应的 ORC 数据字段匹配。插入数据时,ClickHouse 会根据上述表格解释数据类型,然后将数据 转换 为为 ClickHouse 表列设置的数据类型。
示例用法
插入数据
您可以使用以下命令将 ORC 数据从文件插入到 ClickHouse 表中:
选择数据
您可以使用以下命令从 ClickHouse 表中选择数据并将其保存为 ORC 格式的文件:
格式设置
设置 | 描述 | 默认值 |
---|---|---|
output_format_arrow_string_as_string | 对于字符串列,使用 Arrow String 类型而不是 Binary。 | false |
output_format_orc_compression_method | 输出 ORC 格式中使用的压缩方法。默认值 | none |
input_format_arrow_case_insensitive_column_matching | 匹配 Arrow 列与 ClickHouse 列时忽略大小写。 | false |
input_format_arrow_allow_missing_columns | 在读取 Arrow 数据时允许缺少列。 | false |
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inference | 允许在 Arrow 格式的模式推断中跳过不支持的类型的列。 | false |
要与 Hadoop 交换数据,您可以使用 HDFS 表引擎。