OnTime
这个数据集包含来自运输统计局的数据。
创建表
从原始数据导入
下载数据:
使用多个线程加载数据:
(如果您的服务器内存不足或出现其他问题,请移除 -P $(nproc)
部分)
从保存的副本导入
另外,您可以通过以下查询从保存的副本导入数据:
快照创建于 2022-05-29。
查询
Q0.
Q1. 2000年至2008年每天的航班数量
Q2. 2000-2008年按周几分组延误超过10分钟的航班数量
Q3. 2000-2008年按机场分组的延误数量
Q4. 2007年按航空公司分组的延误数量
Q5. 2007年按航空公司分组的延误百分比
同一查询的更好版本:
Q6. 对于更广泛年份范围(2000-2008)的先前请求
同一查询的更好版本:
Q7. 按年份划分的延误超过10分钟的航班百分比
同一查询的更好版本:
Q8. 按连接城市数量划分的不同时期的最热门目的地
Q9.
Q10.
奖励:
您还可以在 Playground 中玩数据,示例。
这个性能测试是由 Vadim Tkachenko 创建的。请参阅:
- https://www.percona.com/blog/2009/10/02/analyzing-air-traffic-performance-with-infobright-and-monetdb/
- https://www.percona.com/blog/2009/10/26/air-traffic-queries-in-luciddb/
- https://www.percona.com/blog/2009/11/02/air-traffic-queries-in-infinidb-early-alpha/
- https://www.percona.com/blog/2014/04/21/using-apache-hadoop-and-impala-together-with-mysql-for-data-analysis/
- https://www.percona.com/blog/2016/01/07/apache-spark-with-air-ontime-performance-data/
- http://nickmakos.blogspot.ru/2012/08/analyzing-air-traffic-performance-with.html