メインコンテンツまでスキップ
メインコンテンツまでスキップ

ORC

InputOutputAlias

説明

Apache ORC は、Hadoop エコシステムで広く使用されている列指向ストレージ形式です。

データ型の一致

下の表は、サポートされている ORC データ型と、それに対応する ClickHouse の データ型INSERT および SELECT クエリで比較したものです。

ORC データ型 (INSERT)ClickHouse データ型ORC データ型 (SELECT)
BooleanUInt8Boolean
TinyintInt8/UInt8/Enum8Tinyint
SmallintInt16/UInt16/Enum16Smallint
IntInt32/UInt32Int
BigintInt64/UInt32Bigint
FloatFloat32Float
DoubleFloat64Double
DecimalDecimalDecimal
DateDate32Date
TimestampDateTime64Timestamp
String, Char, Varchar, BinaryStringBinary
ListArrayList
StructTupleStruct
MapMapMap
IntIPv4Int
BinaryIPv6Binary
BinaryInt128/UInt128/Int256/UInt256Binary
BinaryDecimal256Binary
  • 他の型はサポートされていません。
  • 配列はネスト可能で、引数として Nullable 型の値を持つことができます。TupleMap 型もネスト可能です。
  • ClickHouse テーブルカラムのデータ型は、対応する ORC データフィールドに一致する必要はありません。データを挿入する際、ClickHouse は上の表に従ってデータ型を解釈し、その後 キャスト して ClickHouse テーブルカラムに設定されたデータ型に変換します。

使用例

データの挿入

以下のコマンドを使用して、ファイルから ClickHouse テーブルに ORC データを挿入できます:

データの選択

以下のコマンドを使用して、ClickHouse テーブルからデータを選択し、ORC フォーマットのファイルに保存できます:

形式設定

設定説明デフォルト
output_format_arrow_string_as_string文字列カラムのためにバイナリではなく Arrow String 型を使用します。false
output_format_orc_compression_method出力 ORC 形式で使用される圧縮方法。デフォルト値none
input_format_arrow_case_insensitive_column_matchingArrow カラムと ClickHouse カラムの一致を確認する際に大文字と小文字を無視します。false
input_format_arrow_allow_missing_columnsArrow データを読み取る際に欠落したカラムを許可します。false
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inferenceArrow 形式のスキーマ推論中にサポートされていない型のカラムをスキップすることを許可します。false

Hadoop とデータを交換するには、HDFS テーブルエンジンを使用できます。