COVID-19 Open-Data
COVID-19 Open-Data 旨在汇集最大的COVID-19流行病学数据库,并提供一套强大的扩展协变量。它包括与人口统计、经济、流行病学、地理、健康、住院、流动性、政府响应、天气等相关的开放、公共来源的许可数据。
详细信息可在GitHub的此处找到。
将这些数据轻松插入ClickHouse...
备注
以下命令是在ClickHouse Cloud的生产实例上执行的。您也可以轻松地在本地安装上运行它们。
- 让我们看看数据是什么样子的:
CSV文件有10列:
- 现在让我们查看一些行:
注意url
函数可以轻松地从CSV文件中读取数据:
- 现在我们知道数据是什么样的,接下来创建一个表:
- 以下命令将整个数据集插入到
covid19
表中:
- 这个过程非常快速 - 让我们看看插入了多少行:
- 让我们查看记录的Covid-19总病例数:
- 您会注意到数据中有很多0,表示假期或每天未报告的数字。我们可以使用窗口函数来平滑每天新增病例的平均值:
- 此查询确定每个位置的最新值。我们不能使用
max(date)
,因为并不是所有国家每天都报告,所以我们使用ROW_NUMBER
抓取最后一行:
- 我们可以使用
lagInFrame
来确定每天新病例的LAG
。在这个查询中,我们按US_DC
位置进行过滤:
响应如下所示:
- 此查询计算每天新增病例的变化百分比,并在结果集中包括一个简单的
increase
或decrease
列:
结果如下所示:
备注
如GitHub 仓库中所述,数据集自2022年9月15日起不再更新。