台湾历史天气数据集
这个数据集包含过去128年的历史气象观测测量记录。每一行都是某个时间点和天气站的测量值。
该数据集的来源可以在这里找到,天气站编号的列表可以在这里找到。
气象数据集的来源包括中央气象局建立的气象站(站代码以C0、C1和4开头)以及属于农业委员会的农业气象站(站代码不包括上述提到的情况):
- StationId
- MeasuredDate,观测时间
- StnPres,站点气压
- SeaPres,海平面气压
- Td,露点温度
- RH,相对湿度
- 其他可用元素
下载数据
- 一份适用于ClickHouse的预处理版本,已清理、重组和增强。该数据集涵盖1896年至2023年。
- 下载原始原始数据并转换为ClickHouse要求的格式。希望添加自己列的用户可以探索或完成自己的方法。
预处理数据
该数据集已从每行一个测量值重组为每个天气站ID和测量日期一行,例如:
查询变得简单,并且确保结果表更少稀疏,某些元素为null,因为它们在该气象站不可用。
该数据集可在以下Google Cloud Storage位置找到。用户可以将数据集下载到本地文件系统(并使用ClickHouse客户端插入)或直接插入ClickHouse中(请参见从URL插入)。
下载方式如下:
原始原始数据
以下是下载原始原始数据以进行转换和处理的步骤。
下载
要下载原始原始数据:
检索台湾天气站
创建表结构
在ClickHouse中创建MergeTree表(来自ClickHouse客户端)。
插入到ClickHouse中
从本地文件插入
可以通过以下方式从本地文件插入数据(来自ClickHouse客户端):
其中/path/to
表示本地文件在磁盘上的具体用户路径。
插入数据后,示例响应输出如下:
从URL插入
要了解如何加速这一过程,请参阅我们关于优化大数据加载的博客文章。
检查数据行和大小
- 让我们看看插入了多少行:
- 让我们查看该表使用了多少磁盘空间:
示例查询
Q1:检索特定年份每个天气站的最高露点温度
Q2:以特定时间范围、字段和天气站raw数据获取
致谢
我们要感谢中央气象局和农业委员会农业气象观测网络(站)的努力,他们为准备、清理和分发此数据集做出了贡献。我们对此表示感谢。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 面向应用的深度学习模型用于台湾稻瘟病的早期预警。生态信息学73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022年12月13日]