Apache ArrowをchDBでクエリする方法
Apache Arrowは、データコミュニティで人気を集めている標準化された列指向メモリフォーマットです。このガイドでは、Python
テーブル関数を使用してApache Arrowをクエリする方法を学びます。
セットアップ
まず、仮想環境を作成しましょう:
次に、chDBをインストールします。 バージョン2.0.2以上であることを確認してください:
そして、次にPyArrow、pandas、およびipythonをインストールします:
このガイドの残りの部分でコマンドを実行するために、ipython
を使用します。以下のコマンドを実行して起動できます:
Pythonスクリプトや好きなノートブックでコードを使用することもできます。
ファイルからApache Arrowテーブルを作成する
まず、AWS CLIツールを使用して、OoklaデータセットのParquetファイルの1つをダウンロードしましょう:
注記
他のファイルをダウンロードしたい場合は、aws s3 ls
を使用してすべてのファイルのリストを取得し、その後上記のコマンドを更新してください。
次に、pyarrow
パッケージからParquetモジュールをインポートします:
そして、ParquetファイルをApache Arrowテーブルに読み込むことができます:
スキーマは以下に示されています:
shape
属性を呼び出すことで、行数と列数を取得できます:
Apache Arrowをクエリする
次に、chDBからArrowテーブルをクエリしましょう。 まず、chDBをインポートします:
次に、テーブルの説明を行うことができます:
行数をカウントすることもできます:
さて、少し興味深いことをしましょう。
以下のクエリは、quadkey
とtile.*
列を除外し、残りのすべての列の平均値と最大値を計算します: