ParquetMetadata
説明
Parquetファイルメタデータを読み込むための特別なフォーマットです (https://parquet.apache.org/docs/file-format/metadata/)。次の構造/内容を持つ1行を常に出力します:
num_columns- カラムの数num_rows- 行の総数num_row_groups- 行グループの総数format_version- parquetフォーマットのバージョン、常に1.0または2.6total_uncompressed_size- データの総非圧縮バイトサイズ、すべての行グループのtotal_byte_sizeの合計として計算されますtotal_compressed_size- データの総圧縮バイトサイズ、すべての行グループのtotal_compressed_sizeの合計として計算されますcolumns- 次の構造を持つカラムメタデータのリスト:name- カラム名path- カラムパス(ネストされたカラムの場合、名前とは異なる)max_definition_level- 最大定義レベルmax_repetition_level- 最大繰り返しレベルphysical_type- カラムの物理的タイプlogical_type- カラムの論理的タイプcompression- このカラムに対して使用された圧縮方式total_uncompressed_size- カラムの総非圧縮バイトサイズ、すべての行グループからのカラムのtotal_uncompressed_sizeの合計として計算されますtotal_compressed_size- カラムの総圧縮バイトサイズ、すべての行グループからのカラムのtotal_compressed_sizeの合計として計算されますspace_saved- 圧縮によって節約されたスペースのパーセント、(1 - total_compressed_size/total_uncompressed_size)で計算されますencodings- このカラムに使用されたエンコーディングのリスト
row_groups- 次の構造を持つ行グループメタデータのリスト:num_columns- 行グループ内のカラムの数num_rows- 行グループ内の行の数total_uncompressed_size- 行グループの総非圧縮バイトサイズtotal_compressed_size- 行グループの総圧縮バイトサイズcolumns- 次の構造を持つカラムチャンクメタデータのリスト:name- カラム名path- カラムパスtotal_compressed_size- カラムの総圧縮バイトサイズtotal_uncompressed_size- 行グループの総非圧縮バイトサイズhave_statistics- カラムチャンクメタデータがカラム統計を含むかどうかを示すブールフラグstatistics- カラムチャンク統計(have_statistics = falseの場合、すべてのフィールドはNULL)で次の構造:num_values- カラムチャンク内のNULLでない値の数null_count- カラムチャンク内のNULL値の数distinct_count- カラムチャンク内の異なる値の数min- カラムチャンクの最小値max- カラムチャンクの最大値
使用例
例: