ORC
Input | Output | Alias |
---|---|---|
✔ | ✔ |
説明
Apache ORC は、Hadoop エコシステムで広く使用されている列指向ストレージフォーマットです。
データ型の対応
下の表は、サポートされているORCデータ型と、それに対応するClickHouseのデータ型をINSERT
およびSELECT
クエリにおいて比較しています。
ORCデータ型 (INSERT ) | ClickHouseデータ型 | ORCデータ型 (SELECT ) |
---|---|---|
Boolean | UInt8 | Boolean |
Tinyint | Int8/UInt8/Enum8 | Tinyint |
Smallint | Int16/UInt16/Enum16 | Smallint |
Int | Int32/UInt32 | Int |
Bigint | Int64/UInt32 | Bigint |
Float | Float32 | Float |
Double | Float64 | Double |
Decimal | Decimal | Decimal |
Date | Date32 | Date |
Timestamp | DateTime64 | Timestamp |
String , Char , Varchar , Binary | String | Binary |
List | Array | List |
Struct | Tuple | Struct |
Map | Map | Map |
Int | IPv4 | Int |
Binary | IPv6 | Binary |
Binary | Int128/UInt128/Int256/UInt256 | Binary |
Binary | Decimal256 | Binary |
- その他の型はサポートされていません。
- 配列はネスト可能で、引数として
Nullable
型の値を持つことができます。Tuple
およびMap
型もネスト可能です。 - ClickHouseテーブルカラムのデータ型は、対応するORCデータフィールドと一致する必要はありません。データを挿入する際、ClickHouseは上のテーブルに従ってデータ型を解釈し、その後、キャストしてClickHouseテーブルカラムに設定されたデータ型に変換します。
使用例
データの挿入
ファイルからClickHouseテーブルにORCデータを挿入するには、次のコマンドを使用します:
データの選択
ClickHouseテーブルからデータを選択し、ORC形式でファイルに保存するには、次のコマンドを使用します:
フォーマット設定
設定 | 説明 | デフォルト |
---|---|---|
output_format_arrow_string_as_string | StringカラムのためにBinaryの代わりにArrow String型を使用します。 | false |
output_format_orc_compression_method | 出力ORCフォーマットで使用される圧縮メソッド。デフォルト値 | none |
input_format_arrow_case_insensitive_column_matching | ClickHouseカラムとArrowカラムをマッチさせる際に大文字と小文字を無視します。 | false |
input_format_arrow_allow_missing_columns | Arrowデータを読み込む際に欠落カラムを許可します。 | false |
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inference | Arrowフォーマットのスキーマ推論時にサポートされていない型の列をスキップすることを許可します。 | false |
Hadoopとデータを交換するには、HDFSテーブルエンジンを使用できます。