Environmental Sensors Data
Sensors.Communityは、オープンな環境データを作成するために貢献者主導のグローバルセンサーネットワークです。データは世界中のセンサーから収集されます。誰でもセンサーを購入し、好きな場所に設置することができます。データをダウンロードするためのAPIはGitHubで利用可能で、データはDatabase Contents License (DbCL)の下で自由に利用可能です。
参考
データセットには200億件以上のレコードが含まれているため、リソースがその量を処理できる限り、以下のコマンドをコピー&ペーストすることに注意してください。以下のコマンドはClickHouse CloudのProductionインスタンスで実行されました。
- データはS3にあり、
s3
テーブル関数を使用してファイルからテーブルを作成できます。また、データをそのままクエリすることも可能です。ClickHouseに挿入する前に、いくつかの行を見てみましょう:
データはCSVファイルですが、区切り文字としてセミコロンが使用されています。行は次のようになります:
- ClickHouseにデータを保存するために、次の
MergeTree
テーブルを使用します:
- ClickHouse Cloudサービスには
default
という名前のクラスターがあります。s3Cluster
テーブル関数を使用すると、クラスター内のノードからS3ファイルを並列で読み取ることができます。(クラスターがない場合は、s3
関数を使用し、クラスター名を削除してください。)
このクエリはしばらく時間がかかります。データは圧縮されずに約1.67Tです:
ここでの応答は、行数と処理速度を示しています。入力速度は1秒あたり6M行を超えています!
sensors
テーブルに必要なストレージディスクのサイズを確認しましょう:
1.67Tは310GiBに圧縮され、20.69億行があります:
- データがClickHouseに入ったので、分析を始めましょう。より多くのセンサーが展開されるにつれて、データの量が時間とともに増加していることに注意してください:
これはSQLコンソールで結果を視覚化するためのチャートを作成できるものです:

- このクエリでは、非常に暑く湿度の高い日の数をカウントします:
結果の可視化は次の通りです:
