ParquetMetadata
説明
Parquet ファイルメタデータ (https://parquet.apache.org/docs/file-format/metadata/) を読み取るための特別なフォーマットです。常に次の構造/内容を持つ 1 行を出力します:
num_columns- 列数num_rows- 行の総数num_row_groups- 行グループの総数format_version- Parquet フォーマットバージョン。常に 1.0 または 2.6total_uncompressed_size- すべての行グループの total_byte_size の合計として計算される、データの非圧縮バイトサイズの総量total_compressed_size- すべての行グループの total_compressed_size の合計として計算される、データの圧縮バイトサイズの総量columns- 次の構造を持つ列メタデータのリスト:name- 列名path- 列パス (ネストされた列の場合は name と異なります)max_definition_level- 最大定義レベルmax_repetition_level- 最大反復レベルphysical_type- 列の物理型logical_type- 列の論理型compression- この列で使用される圧縮方式total_uncompressed_size- すべての行グループにおける当該列の total_uncompressed_size の合計として計算される、列の非圧縮バイトサイズの総量total_compressed_size- すべての行グループにおける当該列の total_compressed_size の合計として計算される、列の圧縮バイトサイズの総量space_saved- 圧縮によって節約された容量の割合。(1 - total_compressed_size/total_uncompressed_size) として計算されますencodings- この列で使用されるエンコーディングのリスト
row_groups- 次の構造を持つ行グループメタデータのリスト:num_columns- 行グループ内の列数num_rows- 行グループ内の行数total_uncompressed_size- 行グループの非圧縮バイトサイズの総量total_compressed_size- 行グループの圧縮バイトサイズの総量columns- 次の構造を持つカラムチャンクメタデータのリスト:name- 列名path- 列パスtotal_compressed_size- 列の圧縮バイトサイズの総量total_uncompressed_size- 行グループの非圧縮バイトサイズの総量have_statistics- カラムチャンクメタデータに列統計が含まれるかどうかを示すブールフラグstatistics- カラムチャンク統計 (have_statistics = false の場合、すべてのフィールドは NULL) で、次の構造を持ちます:num_values- カラムチャンク内の非 NULL 値の数null_count- カラムチャンク内の NULL 値の数distinct_count- カラムチャンク内の異なる値の数min- カラムチャンクの最小値max- カラムチャンクの最大値
使用例
例: