リモートClickHouseサーバーのクエリ方法
In this guide, we're going to learn how to query a remote ClickHouse server from chDB.
Setup
まず、仮想環境を作成します。
次に、chDBをインストールします。 バージョン2.0.2以上であることを確認してください:
次に、pandasとipythonをインストールします:
このガイドの残りの部分でコマンドを実行するために、ipython
を使用します。これを起動するには、次のコマンドを実行します:
コードをPythonスクリプトやお気に入りのノートブックで使用することもできます。
An intro to ClickPy
私たちがクエリを実行するリモートClickHouseサーバーはClickPyです。
ClickPyはPyPIパッケージのすべてのダウンロードを追跡し、UIを介してパッケージの統計を探索できます。
基礎データベースはplay
ユーザーを使用してクエリが可能です。
ClickPyの詳細については、GitHubリポジトリを参照してください。
Querying the ClickPy ClickHouse service
まずchDBをインポートします:
remoteSecure
関数を使ってClickPyにクエリを実行します。
この関数は、ホスト名、テーブル名、ユーザー名を最低限必要とします。
次のクエリを記述して、openai
パッケージの1日あたりのダウンロード数をPandas DataFrameとして返します:
次に、scikit-learn
のダウンロード数を返すために同じことを行います:
Merging Pandas DataFrames
現在、2つのDataFrameができたので、日付(x
列)に基づいてマージできます:
次に、Open AIのダウンロード数とscikit-learn
のダウンロード数の比率を計算します:
Querying Pandas DataFrames
次に、最高と最低の比率の日付を見つけたいとしましょう。 chDBに戻ってそれらの値を計算できます:
Pandas DataFramesのクエリについてさらに学ぶには、Pandas DataFrames開発者ガイドを参照してください。