OnTime
此数据集包含来自运输统计局的数据。
创建表
从原始数据导入
下载数据:
使用多线程加载数据:
(如果您在服务器上内存不足或遇到其他问题,请移除 -P $(nproc)
部分)
从保存的副本导入
或者,您可以通过以下查询从保存的副本导入数据:
该快照创建于 2022-05-29。
查询
Q0.
Q1. 2000年至2008年每天的航班数量
Q2. 2000年至2008年间延迟超过10分钟的航班数量,按星期几分组
Q3. 2000年至2008年按机场统计的延误数量
Q4. 2007年按航空公司统计的延误数量
Q5. 2007年按航空公司统计的延误百分比
更好的版本:
Q6. 更广泛年份范围的前一个请求,2000-2008
更好的版本:
Q7. 按年份统计延迟超过10分钟的航班百分比
更好的版本:
Q8. 按直接连接城市数量统计最受欢迎的目的地,适用于不同的年份范围
Q9.
Q10.
奖励:
您还可以在 Playground 中玩转数据,示例。
此性能测试由 Vadim Tkachenko 创建。参见:
- https://www.percona.com/blog/2009/10/02/analyzing-air-traffic-performance-with-infobright-and-monetdb/
- https://www.percona.com/blog/2009/10/26/air-traffic-queries-in-luciddb/
- https://www.percona.com/blog/2009/11/02/air-traffic-queries-in-infinidb-early-alpha/
- https://www.percona.com/blog/2014/04/21/using-apache-hadoop-and-impala-together-with-mysql-for-data-analysis/
- https://www.percona.com/blog/2016/01/07/apache-spark-with-air-ontime-performance-data/
- http://nickmakos.blogspot.ru/2012/08/analyzing-air-traffic-performance-with.html