メインコンテンツまでスキップ
メインコンテンツまでスキップ

ParquetMetadata

説明

Parquet ファイルメタデータを読み取るための特別なフォーマットです (https://parquet.apache.org/docs/file-format/metadata/)。常に次の構造/内容を持つ 1 行が出力されます:

  • num_columns - カラムの数
  • ``num_rows` - 行の総数
  • num_row_groups - 行グループの総数
  • format_version - parquet フォーマットバージョン、常に 1.0 または 2.6
  • total_uncompressed_size - データの総未圧縮バイトサイズ、すべての行グループの total_byte_size の合計として計算
  • total_compressed_size - データの総圧縮バイトサイズ、すべての行グループの total_compressed_size の合計として計算
  • columns - 次の構造を持つカラムメタデータのリスト:
    • name - カラム名
    • path - カラムパス(ネストされたカラムの場合、名前とは異なる)
    • max_definition_level - 最大定義レベル
    • max_repetition_level - 最大繰り返しレベル
    • physical_type - カラムの物理タイプ
    • logical_type - カラムの論理タイプ
    • compression - このカラムに使用される圧縮方式
    • total_uncompressed_size - カラムの総未圧縮バイトサイズ、すべての行グループのカラムの total_uncompressed_size の合計として計算
    • total_compressed_size - カラムの総圧縮バイトサイズ、すべての行グループのカラムの total_compressed_size の合計として計算
    • space_saved - 圧縮によって節約されたスペースの割合、(1 - total_compressed_size/total_uncompressed_size) として計算
    • encodings - このカラムに使用されるエンコーディングのリスト
  • row_groups - 次の構造を持つ行グループメタデータのリスト:
    • num_columns - 行グループ内のカラムの数
    • num_rows - 行グループ内の行の数
    • total_uncompressed_size - 行グループの総未圧縮バイトサイズ
    • total_compressed_size - 行グループの総圧縮バイトサイズ
    • columns - 次の構造を持つカラムチャンクメタデータのリスト:
      • name - カラム名
      • path - カラムパス
      • total_compressed_size - カラムの総圧縮バイトサイズ
      • total_uncompressed_size - 行グループの総未圧縮バイトサイズ
      • have_statistics - カラムチャンクメタデータがカラム統計を含むかどうかを示すブールフラグ
      • statistics - カラムチャンク統計 (have_statistics = false の場合、すべてのフィールドは NULL) 次の構造:
        • num_values - カラムチャンク内の非 NULL 値の数
        • null_count - カラムチャンク内の NULL 値の数
        • distinct_count - カラムチャンク内の異なる値の数
        • min - カラムチャンクの最小値
        • max - カラムチャンクの最大値

使用例

例: