メインコンテンツまでスキップ
メインコンテンツまでスキップ

COVID-19 Open-Data

COVID-19 Open-Dataは、最も大規模なCovid-19疫学データベースを構築し、強力な一連の広範な共変量を追加することを目指しています。これには、人口統計、経済、疫学、地理、健康、入院、移動、政府の対応、天候などに関連するオープンで公開されたライセンスデータが含まれています。

詳細はGitHub here をご覧ください。

このデータをClickHouseに簡単に挿入できます...

注記

以下のコマンドは、ClickHouse CloudProductionインスタンスで実行されました。ローカルインストールでも簡単に実行できます。

  1. データがどのようなものか見てみましょう:

CSVファイルには10列があります:

  1. いくつかの行を表示してみましょう:

url関数がCSVファイルからデータを簡単に読み取っていることに注意してください:

  1. データがどのようなものか分かったので、テーブルを作成します:
  1. 次のコマンドは、全データセットをcovid19テーブルに挿入します:
  1. かなり早く進みます - 挿入された行の数を見てみましょう:
  1. COVID-19の合計症例数を確認しましょう:
  1. 日付のデータは多くの0を含んでいます - これは、週末や毎日の数字が報告されなかった日です。ウィンドウ関数を使用して新規ケースの日次平均を平滑化できます:
  1. このクエリは、各地域に対する最新の値を特定します。max(date)は使用できません。なぜなら、すべての国が毎日報告しているわけではないからです。したがって、ROW_NUMBERを使用して最後の行を取得します:
  1. lagInFrameを使用して新しいケースのLAGを日毎に決定できます。このクエリでは、US_DC場所でフィルタリングします:

レスポンスは次のようになります:

  1. このクエリは、新しい症例の日次変化率を計算し、結果セットにシンプルなincreaseまたはdecrease列を含めます:

結果は次のようになります:

注記

GitHubリポジトリに記載されているように、データセットは2022年9月15日以降に更新されていません。