跳到主要内容
跳到主要内容

众包航空交通数据来自 The OpenSky Network 2020

该数据集中的数据来源于完整的 OpenSky 数据集,并经过清洗,以展示 COVID-19 大流行期间的航空交通发展。它涵盖了自 2019 年 1 月 1 日以来网络上超过 2500 名成员看到的所有航班。COVID-19 大流行结束之前,将定期向数据集中添加更多数据。

来源: https://zenodo.org/records/5092942

Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer, 和 Vincent Lenders “2019-2020 年 OpenSky 网络的众包航空交通数据” 《地球系统科学数据》 13(2), 2021 https://doi.org/10.5194/essd-13-357-2021

下载数据集

运行命令:

下载大约需要 2 分钟,条件是网络连接良好。共有 30 个文件,总大小为 4.3 GB。

创建表

导入数据

将数据并行上传到 ClickHouse:

  • 在这里,我们将文件列表 (ls -1 flightlist_*.csv.gz) 传递给 xargs 进行并行处理。 xargs -P100 指定最多使用 100 个并行工作者,但由于我们只有 30 个文件,工作者的数量将仅为 30。
  • 对于每个文件,xargs 将使用 bash -c 运行一个脚本。该脚本的替代形式为 {}xargs 命令将用文件名替代它(我们要求 xargs 使用 -I{})。
  • 脚本将解压文件 (gzip -c -d "{}") 到标准输出 (-c 参数),输出被重定向到 clickhouse-client
  • 我们还要求使用扩展解析器 (--date_time_input_format best_effort) 解析 DateTime 字段,以识别带有时区偏移的 ISO-8601 格式。

最后,clickhouse-client 将进行插入。它以 CSVWithNames 格式读取输入数据。

并行上传需要 24 秒。

如果您不喜欢并行上传,这里有一个顺序变体:

验证数据

查询:

结果:

ClickHouse 中数据集的大小仅为 2.66 GiB,请检查。

查询:

结果:

执行一些查询

总行驶距离为 680 亿公里。

查询:

结果:

平均航程约为 1000 公里。

查询:

结果:

最繁忙的出发机场及平均航程

查询:

结果:

三个主要莫斯科机场每周航班数量

查询:

结果:

在线演示

您可以使用互动资源 在线演示 测试此数据集的其他查询。例如,像这样。但是,请注意,您无法在此处创建临时表。