リモートClickHouseサーバーへのクエリ方法
このガイドでは、chDBからリモートClickHouseサーバーへのクエリ方法を学びます。
セットアップ
まず、仮想環境を作成しましょう:
次に、chDBをインストールします。 バージョン2.0.2以上が必要です:
次に、pandasとipythonをインストールします:
ipython
を使用して、残りのガイドでコマンドを実行します。起動するには次のコマンドを実行してください:
Pythonスクリプトやお気に入りのノートブックでコードを使用することもできます。
ClickPyの紹介
クエリを行うリモートClickHouseサーバーはClickPyです。
ClickPyは、PyPIパッケージのすべてのダウンロードを追跡し、UIを通じてパッケージの統計を探索できるようにします。
基盤となるデータベースは、play
ユーザーを使用してクエリ可能です。
ClickPyの詳細については、そのGitHubリポジトリを参照してください。
ClickPy ClickHouseサービスへのクエリ
chDBをインポートしましょう:
remoteSecure
関数を使用してClickPyにクエリを投げます。
この関数には、ホスト名、テーブル名、およびユーザー名を最低限指定する必要があります。
次のクエリを書いて、openai
パッケージの日ごとのダウンロード数をPandasのDataFrameとして返します:
次に、scikit-learn
のダウンロード数を返すために同じことをしましょう:
Pandas DataFrameのマージ
現在、2つのDataFrameがあるので、次のように日付(x
カラム)を基にマージできます:
次に、Open AIのダウンロード数とscikit-learn
のダウンロード数の比率を次のように計算できます:
Pandas DataFrameのクエリ
次に、最良および最悪の比率のある日付を見つけたいとしましょう。 chDBに戻り、これらの値を計算できます:
Pandas DataFramesへのクエリの詳細を学びたい場合は、Pandas DataFrames開発者ガイドをご覧ください。