众包航空交通数据来自 The OpenSky Network 2020
该数据集中的数据来源于完整的 OpenSky 数据集,并经过清洗,以展示 COVID-19 大流行期间的航空交通发展。它涵盖了自 2019 年 1 月 1 日以来网络上超过 2500 名成员看到的所有航班。COVID-19 大流行结束之前,将定期向数据集中添加更多数据。
来源: https://zenodo.org/records/5092942
Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer, 和 Vincent Lenders “2019-2020 年 OpenSky 网络的众包航空交通数据” 《地球系统科学数据》 13(2), 2021 https://doi.org/10.5194/essd-13-357-2021
下载数据集
运行命令:
下载大约需要 2 分钟,条件是网络连接良好。共有 30 个文件,总大小为 4.3 GB。
创建表
导入数据
将数据并行上传到 ClickHouse:
- 在这里,我们将文件列表 (
ls -1 flightlist_*.csv.gz
) 传递给xargs
进行并行处理。xargs -P100
指定最多使用 100 个并行工作者,但由于我们只有 30 个文件,工作者的数量将仅为 30。 - 对于每个文件,
xargs
将使用bash -c
运行一个脚本。该脚本的替代形式为{}
,xargs
命令将用文件名替代它(我们要求xargs
使用-I{}
)。 - 脚本将解压文件 (
gzip -c -d "{}"
) 到标准输出 (-c
参数),输出被重定向到clickhouse-client
。 - 我们还要求使用扩展解析器 (--date_time_input_format best_effort) 解析 DateTime 字段,以识别带有时区偏移的 ISO-8601 格式。
最后,clickhouse-client
将进行插入。它以 CSVWithNames 格式读取输入数据。
并行上传需要 24 秒。
如果您不喜欢并行上传,这里有一个顺序变体:
验证数据
查询:
结果:
ClickHouse 中数据集的大小仅为 2.66 GiB,请检查。
查询:
结果:
执行一些查询
总行驶距离为 680 亿公里。
查询:
结果:
平均航程约为 1000 公里。
查询:
结果:
最繁忙的出发机场及平均航程
查询:
结果:
三个主要莫斯科机场每周航班数量
查询:
结果: