メインコンテンツまでスキップ
メインコンテンツまでスキップ

ORC

InputOutputAlias

説明

Apache ORC は、Hadoop エコシステムで広く使用されている列指向ストレージフォーマットです。

データ型の対応

下の表は、サポートされているORCデータ型と、それに対応するClickHouseのデータ型INSERTおよびSELECTクエリにおいて比較しています。

ORCデータ型 (INSERT)ClickHouseデータ型ORCデータ型 (SELECT)
BooleanUInt8Boolean
TinyintInt8/UInt8/Enum8Tinyint
SmallintInt16/UInt16/Enum16Smallint
IntInt32/UInt32Int
BigintInt64/UInt32Bigint
FloatFloat32Float
DoubleFloat64Double
DecimalDecimalDecimal
DateDate32Date
TimestampDateTime64Timestamp
String, Char, Varchar, BinaryStringBinary
ListArrayList
StructTupleStruct
MapMapMap
IntIPv4Int
BinaryIPv6Binary
BinaryInt128/UInt128/Int256/UInt256Binary
BinaryDecimal256Binary
  • その他の型はサポートされていません。
  • 配列はネスト可能で、引数としてNullable型の値を持つことができます。TupleおよびMap型もネスト可能です。
  • ClickHouseテーブルカラムのデータ型は、対応するORCデータフィールドと一致する必要はありません。データを挿入する際、ClickHouseは上のテーブルに従ってデータ型を解釈し、その後、キャストしてClickHouseテーブルカラムに設定されたデータ型に変換します。

使用例

データの挿入

ファイルからClickHouseテーブルにORCデータを挿入するには、次のコマンドを使用します:

データの選択

ClickHouseテーブルからデータを選択し、ORC形式でファイルに保存するには、次のコマンドを使用します:

フォーマット設定

設定説明デフォルト
output_format_arrow_string_as_stringStringカラムのためにBinaryの代わりにArrow String型を使用します。false
output_format_orc_compression_method出力ORCフォーマットで使用される圧縮メソッド。デフォルト値none
input_format_arrow_case_insensitive_column_matchingClickHouseカラムとArrowカラムをマッチさせる際に大文字と小文字を無視します。false
input_format_arrow_allow_missing_columnsArrowデータを読み込む際に欠落カラムを許可します。false
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inferenceArrowフォーマットのスキーマ推論時にサポートされていない型の列をスキップすることを許可します。false

Hadoopとデータを交換するには、HDFSテーブルエンジンを使用できます。