ParquetMetadata
説明
Parquetファイルメタデータを読み込むための特別なフォーマットです (https://parquet.apache.org/docs/file-format/metadata/)。次の構造/内容を持つ1行を常に出力します:
num_columns
- カラムの数num_rows
- 行の総数num_row_groups
- 行グループの総数format_version
- parquetフォーマットのバージョン、常に1.0または2.6total_uncompressed_size
- データの総非圧縮バイトサイズ、すべての行グループのtotal_byte_sizeの合計として計算されますtotal_compressed_size
- データの総圧縮バイトサイズ、すべての行グループのtotal_compressed_sizeの合計として計算されますcolumns
- 次の構造を持つカラムメタデータのリスト:name
- カラム名path
- カラムパス(ネストされたカラムの場合、名前とは異なる)max_definition_level
- 最大定義レベルmax_repetition_level
- 最大繰り返しレベルphysical_type
- カラムの物理的タイプlogical_type
- カラムの論理的タイプcompression
- このカラムに対して使用された圧縮方式total_uncompressed_size
- カラムの総非圧縮バイトサイズ、すべての行グループからのカラムのtotal_uncompressed_sizeの合計として計算されますtotal_compressed_size
- カラムの総圧縮バイトサイズ、すべての行グループからのカラムのtotal_compressed_sizeの合計として計算されますspace_saved
- 圧縮によって節約されたスペースのパーセント、(1 - total_compressed_size/total_uncompressed_size)で計算されますencodings
- このカラムに使用されたエンコーディングのリスト
row_groups
- 次の構造を持つ行グループメタデータのリスト:num_columns
- 行グループ内のカラムの数num_rows
- 行グループ内の行の数total_uncompressed_size
- 行グループの総非圧縮バイトサイズtotal_compressed_size
- 行グループの総圧縮バイトサイズcolumns
- 次の構造を持つカラムチャンクメタデータのリスト:name
- カラム名path
- カラムパスtotal_compressed_size
- カラムの総圧縮バイトサイズtotal_uncompressed_size
- 行グループの総非圧縮バイトサイズhave_statistics
- カラムチャンクメタデータがカラム統計を含むかどうかを示すブールフラグstatistics
- カラムチャンク統計(have_statistics = falseの場合、すべてのフィールドはNULL)で次の構造:num_values
- カラムチャンク内のNULLでない値の数null_count
- カラムチャンク内のNULL値の数distinct_count
- カラムチャンク内の異なる値の数min
- カラムチャンクの最小値max
- カラムチャンクの最大値
使用例
例: