跳到主要内容
跳到主要内容

COVID-19 Open-Data

COVID-19 Open-Data 旨在汇集最大的COVID-19流行病学数据库,并提供一套强大的扩展协变量。它包括与人口统计、经济、流行病学、地理、健康、住院、流动性、政府响应、天气等相关的开放、公共来源的许可数据。

详细信息可在GitHub的此处找到。

将这些数据轻松插入ClickHouse...

备注

以下命令是在ClickHouse Cloud生产实例上执行的。您也可以轻松地在本地安装上运行它们。

  1. 让我们看看数据是什么样子的:

CSV文件有10列:

  1. 现在让我们查看一些行:

注意url函数可以轻松地从CSV文件中读取数据:

  1. 现在我们知道数据是什么样的,接下来创建一个表:
  1. 以下命令将整个数据集插入到covid19表中:
  1. 这个过程非常快速 - 让我们看看插入了多少行:
  1. 让我们查看记录的Covid-19总病例数:
  1. 您会注意到数据中有很多0,表示假期或每天未报告的数字。我们可以使用窗口函数来平滑每天新增病例的平均值:
  1. 此查询确定每个位置的最新值。我们不能使用max(date),因为并不是所有国家每天都报告,所以我们使用ROW_NUMBER抓取最后一行:
  1. 我们可以使用lagInFrame来确定每天新病例的LAG。在这个查询中,我们按US_DC位置进行过滤:

响应如下所示:

  1. 此查询计算每天新增病例的变化百分比,并在结果集中包括一个简单的increasedecrease列:

结果如下所示:

备注

GitHub 仓库中所述,数据集自2022年9月15日起不再更新。