ORC
Input | Output | Alias |
---|---|---|
✔ | ✔ |
説明
Apache ORC は、Hadoop エコシステムで広く使用されている列指向ストレージ形式です。
データ型の一致
下の表は、サポートされている ORC データ型と、それに対応する ClickHouse の データ型 を INSERT
および SELECT
クエリで比較したものです。
ORC データ型 (INSERT ) | ClickHouse データ型 | ORC データ型 (SELECT ) |
---|---|---|
Boolean | UInt8 | Boolean |
Tinyint | Int8/UInt8/Enum8 | Tinyint |
Smallint | Int16/UInt16/Enum16 | Smallint |
Int | Int32/UInt32 | Int |
Bigint | Int64/UInt32 | Bigint |
Float | Float32 | Float |
Double | Float64 | Double |
Decimal | Decimal | Decimal |
Date | Date32 | Date |
Timestamp | DateTime64 | Timestamp |
String , Char , Varchar , Binary | String | Binary |
List | Array | List |
Struct | Tuple | Struct |
Map | Map | Map |
Int | IPv4 | Int |
Binary | IPv6 | Binary |
Binary | Int128/UInt128/Int256/UInt256 | Binary |
Binary | Decimal256 | Binary |
- 他の型はサポートされていません。
- 配列はネスト可能で、引数として
Nullable
型の値を持つことができます。Tuple
とMap
型もネスト可能です。 - ClickHouse テーブルカラムのデータ型は、対応する ORC データフィールドに一致する必要はありません。データを挿入する際、ClickHouse は上の表に従ってデータ型を解釈し、その後 キャスト して ClickHouse テーブルカラムに設定されたデータ型に変換します。
使用例
データの挿入
以下のコマンドを使用して、ファイルから ClickHouse テーブルに ORC データを挿入できます:
データの選択
以下のコマンドを使用して、ClickHouse テーブルからデータを選択し、ORC フォーマットのファイルに保存できます:
形式設定
設定 | 説明 | デフォルト |
---|---|---|
output_format_arrow_string_as_string | 文字列カラムのためにバイナリではなく Arrow String 型を使用します。 | false |
output_format_orc_compression_method | 出力 ORC 形式で使用される圧縮方法。デフォルト値 | none |
input_format_arrow_case_insensitive_column_matching | Arrow カラムと ClickHouse カラムの一致を確認する際に大文字と小文字を無視します。 | false |
input_format_arrow_allow_missing_columns | Arrow データを読み取る際に欠落したカラムを許可します。 | false |
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inference | Arrow 形式のスキーマ推論中にサポートされていない型のカラムをスキップすることを許可します。 | false |
Hadoop とデータを交換するには、HDFS テーブルエンジンを使用できます。