COVID-19 Open-Data
COVID-19 Open-Dataは、最も大規模なCovid-19疫学データベースを構築し、強力な一連の広範な共変量を追加することを目指しています。これには、人口統計、経済、疫学、地理、健康、入院、移動、政府の対応、天候などに関連するオープンで公開されたライセンスデータが含まれています。
詳細はGitHub here をご覧ください。
このデータをClickHouseに簡単に挿入できます...
注記
以下のコマンドは、ClickHouse CloudのProductionインスタンスで実行されました。ローカルインストールでも簡単に実行できます。
- データがどのようなものか見てみましょう:
CSVファイルには10列があります:
- いくつかの行を表示してみましょう:
url
関数がCSVファイルからデータを簡単に読み取っていることに注意してください:
- データがどのようなものか分かったので、テーブルを作成します:
- 次のコマンドは、全データセットを
covid19
テーブルに挿入します:
- かなり早く進みます - 挿入された行の数を見てみましょう:
- COVID-19の合計症例数を確認しましょう:
- 日付のデータは多くの0を含んでいます - これは、週末や毎日の数字が報告されなかった日です。ウィンドウ関数を使用して新規ケースの日次平均を平滑化できます:
- このクエリは、各地域に対する最新の値を特定します。
max(date)
は使用できません。なぜなら、すべての国が毎日報告しているわけではないからです。したがって、ROW_NUMBER
を使用して最後の行を取得します:
lagInFrame
を使用して新しいケースのLAG
を日毎に決定できます。このクエリでは、US_DC
場所でフィルタリングします:
レスポンスは次のようになります:
- このクエリは、新しい症例の日次変化率を計算し、結果セットにシンプルな
increase
またはdecrease
列を含めます:
結果は次のようになります:
注記
GitHubリポジトリに記載されているように、データセットは2022年9月15日以降に更新されていません。