台湾历史天气数据集
这个数据集包含了过去128年的历史气象观测测量数据。每一行是某个时间点和气象站的测量结果。
该数据集的来源可以在 这里 找到,气象站编号的列表可以在 这里 找到。
气象数据集的来源包括中央气象局建立的气象站(站点代码以C0、C1和4开头)以及农业委员会所属的农业气象站(站点代码不包含上述所提到的代码):
- StationId
- MeasuredDate,观测时间
- StnPres,站点气压
- SeaPres,海平面气压
- Td,露点温度
- RH,相对湿度
- 其他可用元素
下载数据
- 一个 预处理版本 的数据用于ClickHouse,经过清理、重构和丰富。该数据集覆盖1896年至2023年。
- 下载原始原始数据 并转换为ClickHouse所需的格式。希望添加自己列的用户可以探索或完善自己的方法。
预处理数据
该数据集已经从每行一个测量重构为每个气象站id和测量日期一行,即:
查询非常简便,并确保结果表较少稀疏,某些元素由于无法在该气象站测量而为null。
该数据集可在以下Google CloudStorage位置获取。您可以将数据集下载到本地文件系统(然后使用ClickHouse客户端插入),或直接插入到ClickHouse中(请参见 从URL插入)。
下载方法:
原始原始数据
以下是关于下载原始原始数据以进行转换和转化的步骤的详细信息。
下载
要下载原始原始数据:
获取台湾气象站
创建表结构
在ClickHouse中创建MergeTree表(来自ClickHouse客户端)。
插入数据到ClickHouse
从本地文件插入
可以通过以下方式从本地文件插入数据(来自ClickHouse客户端):
其中/path/to
表示磁盘上本地文件的特定用户路径。
在将数据插入到ClickHouse后,示例响应输出如下:
从URL插入
要了解如何加快这一过程,请参见我们博客文章中的 调优大量数据加载。
检查数据行和大小
- 让我们看看插入了多少行:
- 让我们看看这个表占用了多少磁盘空间:
示例查询
Q1: 获取每个气象站在特定年份的最高露点温度
Q2: 使用特定时间范围、字段和气象站的原始数据获取
感谢
我们要感谢中央气象局和农业委员会的农业气象观测网络(站)在准备、清理和分配此数据集方面所做的努力。我们对此表示感谢。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 面向应用的深度学习模型用于台湾水稻病害的早期预警。生态信息学 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [13/12/2022]