ParquetMetadata
説明
Parquet ファイルメタデータを読み取るための特別なフォーマットです (https://parquet.apache.org/docs/file-format/metadata/)。常に次の構造/内容を持つ 1 行が出力されます:
num_columns
- カラムの数- ``num_rows` - 行の総数
num_row_groups
- 行グループの総数format_version
- parquet フォーマットバージョン、常に 1.0 または 2.6total_uncompressed_size
- データの総未圧縮バイトサイズ、すべての行グループの total_byte_size の合計として計算total_compressed_size
- データの総圧縮バイトサイズ、すべての行グループの total_compressed_size の合計として計算columns
- 次の構造を持つカラムメタデータのリスト:name
- カラム名path
- カラムパス(ネストされたカラムの場合、名前とは異なる)max_definition_level
- 最大定義レベルmax_repetition_level
- 最大繰り返しレベルphysical_type
- カラムの物理タイプlogical_type
- カラムの論理タイプcompression
- このカラムに使用される圧縮方式total_uncompressed_size
- カラムの総未圧縮バイトサイズ、すべての行グループのカラムの total_uncompressed_size の合計として計算total_compressed_size
- カラムの総圧縮バイトサイズ、すべての行グループのカラムの total_compressed_size の合計として計算space_saved
- 圧縮によって節約されたスペースの割合、(1 - total_compressed_size/total_uncompressed_size) として計算encodings
- このカラムに使用されるエンコーディングのリスト
row_groups
- 次の構造を持つ行グループメタデータのリスト:num_columns
- 行グループ内のカラムの数num_rows
- 行グループ内の行の数total_uncompressed_size
- 行グループの総未圧縮バイトサイズtotal_compressed_size
- 行グループの総圧縮バイトサイズcolumns
- 次の構造を持つカラムチャンクメタデータのリスト:name
- カラム名path
- カラムパスtotal_compressed_size
- カラムの総圧縮バイトサイズtotal_uncompressed_size
- 行グループの総未圧縮バイトサイズhave_statistics
- カラムチャンクメタデータがカラム統計を含むかどうかを示すブールフラグstatistics
- カラムチャンク統計 (have_statistics = false の場合、すべてのフィールドは NULL) 次の構造:num_values
- カラムチャンク内の非 NULL 値の数null_count
- カラムチャンク内の NULL 値の数distinct_count
- カラムチャンク内の異なる値の数min
- カラムチャンクの最小値max
- カラムチャンクの最大値
使用例
例: