メインコンテンツまでスキップ
メインコンテンツまでスキップ

Environmental Sensors Data

Sensors.Communityは、オープンな環境データを作成するために貢献者主導のグローバルセンサーネットワークです。データは世界中のセンサーから収集されます。誰でもセンサーを購入し、好きな場所に設置することができます。データをダウンロードするためのAPIはGitHubで利用可能で、データはDatabase Contents License (DbCL)の下で自由に利用可能です。

参考

データセットには200億件以上のレコードが含まれているため、リソースがその量を処理できる限り、以下のコマンドをコピー&ペーストすることに注意してください。以下のコマンドはClickHouse CloudProductionインスタンスで実行されました。

  1. データはS3にあり、s3テーブル関数を使用してファイルからテーブルを作成できます。また、データをそのままクエリすることも可能です。ClickHouseに挿入する前に、いくつかの行を見てみましょう:

データはCSVファイルですが、区切り文字としてセミコロンが使用されています。行は次のようになります:

  1. ClickHouseにデータを保存するために、次のMergeTreeテーブルを使用します:
  1. ClickHouse Cloudサービスには defaultという名前のクラスターがあります。s3Clusterテーブル関数を使用すると、クラスター内のノードからS3ファイルを並列で読み取ることができます。(クラスターがない場合は、s3関数を使用し、クラスター名を削除してください。)

このクエリはしばらく時間がかかります。データは圧縮されずに約1.67Tです:

ここでの応答は、行数と処理速度を示しています。入力速度は1秒あたり6M行を超えています!

  1. sensorsテーブルに必要なストレージディスクのサイズを確認しましょう:

1.67Tは310GiBに圧縮され、20.69億行があります:

  1. データがClickHouseに入ったので、分析を始めましょう。より多くのセンサーが展開されるにつれて、データの量が時間とともに増加していることに注意してください:

これはSQLコンソールで結果を視覚化するためのチャートを作成できるものです:

  1. このクエリでは、非常に暑く湿度の高い日の数をカウントします:

結果の可視化は次の通りです: