ParquetMetadata
Описание
Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Он всегда выводит одну строку со следующей структурой/содержимым:
num_columns
- количество колонок- ``num_rows` - общее количество строк
num_row_groups
- общее количество групп строкformat_version
- версия формата parquet, всегда 1.0 или 2.6total_uncompressed_size
- общий размер данных в не сжатом виде в байтах, рассчитывается как сумма total_byte_size из всех групп строкtotal_compressed_size
- общий размер данных в сжатом виде в байтах, рассчитывается как сумма total_compressed_size из всех групп строкcolumns
- список метаданных колонок со следующей структурой:name
- имя колонкиpath
- путь колонки (отличается от имени для вложенной колонки)max_definition_level
- максимальный уровень определенияmax_repetition_level
- максимальный уровень повторенияphysical_type
- физический тип колонкиlogical_type
- логический тип колонкиcompression
- сжатие, используемое для этой колонкиtotal_uncompressed_size
- общий размер данных в не сжатом виде в байтах для колонки, рассчитываемый как сумма total_uncompressed_size колонки из всех групп строкtotal_compressed_size
- общий размер данных в сжатом виде в байтах для колонки, рассчитываемый как сумма total_compressed_size колонки из всех групп строкspace_saved
- процент сэкономленного пространства за счет сжатия, рассчитываемый как (1 - total_compressed_size/total_uncompressed_size).encodings
- список кодировок, используемых для этой колонки
row_groups
- список метаданных групп строк со следующей структурой:num_columns
- количество колонок в группе строкnum_rows
- количество строк в группе строкtotal_uncompressed_size
- общий размер группы строк в не сжатом виде в байтахtotal_compressed_size
- общий размер группы строк в сжатом виде в байтахcolumns
- список метаданных чанков колонок со следующей структурой:name
- имя колонкиpath
- путь колонкиtotal_compressed_size
- общий размер колонок в сжатом виде в байтахtotal_uncompressed_size
- общий размер группы строк в не сжатом виде в байтахhave_statistics
- булевый флаг, указывающий, содержит ли метаданные чанка колонки статистику колонкиstatistics
- статистика чанка колонки (все поля равны NULL, если have_statistics = false) со следующей структурой:num_values
- количество ненулевых значений в чанке колонкиnull_count
- количество значений NULL в чанке колонкиdistinct_count
- количество различных значений в чанке колонкиmin
- минимальное значение в чанке колонкиmax
- максимальное значение в чанке колонки
Пример использования
Пример: