Apache ArrowをchDBでクエリする方法
Apache Arrow は、データコミュニティで人気を集めている標準化された列指向メモリフォーマットです。
このガイドでは、Python
テーブル関数を使用してApache Arrowをクエリする方法を学びます。
セットアップ
まず、仮想環境を作成しましょう:
次に、chDBをインストールします。 バージョン 2.0.2以上を使用していることを確認してください:
次に、PyArrow、pandas、およびipythonをインストールします:
これからのガイドの残りのコマンドを実行するためにipython
を使用します。以下のコマンドで起動できます:
Pythonスクリプトやお好きなノートブックでコードを使用することもできます。
ファイルからApache Arrowテーブルを作成する
まず、OoklaデータセットのParquetファイルの1つをダウンロードしましょう。 AWS CLIツールを使用します:
注記
他のファイルをダウンロードしたい場合は、aws s3 ls
を使用してすべてのファイルのリストを取得し、上記のコマンドを更新してください。
次に、pyarrow
パッケージからParquetモジュールをインポートします:
それから、ParquetファイルをApache Arrowテーブルに読み込みます:
スキーマは以下の通りです:
shape
属性を呼び出して行数と列数を取得できます:
Apache Arrowをクエリする
次に、chDBからArrowテーブルをクエリしましょう。 まず、chDBをインポートします:
テーブルの説明を行います:
行の数をカウントすることもできます:
さあ、もう少し興味深いことをしてみましょう。
次のクエリでは、quadkey
およびtile.*
カラムを除外し、残りの全てのカラムに対して平均値と最大値を計算します: