ParquetMetadata
説明
Parquetファイルメタデータを読み取るための特別なフォーマットです (https://parquet.apache.org/docs/file-format/metadata/)。常に次の構造/内容で1行が出力されます:
num_columns
- カラムの数num_rows
- 行の総数num_row_groups
- 行グループの総数format_version
- parquetフォーマットバージョン、常に1.0または2.6total_uncompressed_size
- データの総未圧縮バイトサイズ、すべての行グループのtotal_byte_sizeの合計として計算されますtotal_compressed_size
- データの総圧縮バイトサイズ、すべての行グループのtotal_compressed_sizeの合計として計算されますcolumns
- 次の構造を持つカラムメタデータのリスト:name
- カラム名path
- カラムパス(ネストされたカラムの名前とは異なります)max_definition_level
- 最大定義レベルmax_repetition_level
- 最大繰り返しレベルphysical_type
- カラムの物理タイプlogical_type
- カラムの論理タイプcompression
- このカラムに使用される圧縮total_uncompressed_size
- カラムの総未圧縮バイトサイズ、すべての行グループのカラムのtotal_uncompressed_sizeの合計として計算されますtotal_compressed_size
- カラムの総圧縮バイトサイズ、すべての行グループのカラムのtotal_compressed_sizeの合計として計算されますspace_saved
- 圧縮によって保存されたスペースのパーセント、(1 - total_compressed_size/total_uncompressed_size)として計算されますencodings
- このカラムに使用されるエンコーディングのリスト
row_groups
- 次の構造を持つ行グループメタデータのリスト:num_columns
- 行グループ内のカラム数num_rows
- 行グループ内の行数total_uncompressed_size
- 行グループの総未圧縮バイトサイズtotal_compressed_size
- 行グループの総圧縮バイトサイズcolumns
- 次の構造を持つカラムチャンクメタデータのリスト:name
- カラム名path
- カラムパスtotal_compressed_size
- カラムの総圧縮バイトサイズtotal_uncompressed_size
- 行グループの総未圧縮バイトサイズhave_statistics
- カラムチャンクメタデータがカラム統計を含むかどうかを示すブールフラグstatistics
- カラムチャンクの統計(have_statistics = falseの場合、すべてのフィールドはNULL)次の構造:num_values
- カラムチャンク内の非NULL値の数null_count
- カラムチャンク内のNULL値の数distinct_count
- カラムチャンク内の異なる値の数min
- カラムチャンクの最小値max
- カラムチャンクの最大値
使用例
例: