台湾历史天气数据集
该数据集包含过去128年的历史气象观测数据。每一行代表一个特定时间点和天气站的测量数据。
这一数据集的来源可以在 这里 找到,天气站编号的列表可以在 这里 找到。
气象数据集的来源包括由中央气象局建立的气象站(站点编号以C0、C1和4开头)和属于农委会的农业气象站(站点编号除上述以外):
- StationId
- MeasuredDate,观测时间
- StnPres,站点气压
- SeaPres,海平面气压
- Td,露点温度
- RH,相对湿度
- 其他可用的元素
下载数据
- 预处理版本 的数据用于ClickHouse,已被清理、重构和丰富。此数据集覆盖1896年至2023年。
- 下载原始数据 并转换为ClickHouse所需的格式。希望添加自己列的用户可以探索或补充他们的方法。
预处理数据
该数据集已从每行一个测量转换为每个天气站ID和测量日期一行,即:
可以容易地执行查询并确保生成的表格较少稀疏且某些元素为null,因为它们在此气象站不可用进行测量。
该数据集可在以下Google CloudStorage位置获得。您可以将数据集下载到本地文件系统(并通过ClickHouse客户端插入),或者直接插入到ClickHouse中(请参见 从URL插入)。
下载方式:
原始数据
以下是关于下载原始数据的步骤,以便您进行转换和处理。
下载
要下载原始数据:
获取台湾天气站
创建表模式
在ClickHouse中创建MergeTree表(通过ClickHouse客户端)。
插入到ClickHouse
从本地文件插入
数据可以从本地文件插入,如下所示(通过ClickHouse客户端):
其中 /path/to
表示用户特定的文件路径。
在将数据插入ClickHouse后,样本响应输出如下:
从URL插入
要了解如何加快此过程,请参见我们的博客文章 调优大数据加载。
检查数据行和大小
- 让我们看看已插入多少行:
- 让我们看看此表使用了多少磁盘空间:
示例查询
Q1: 检索特定年份每个天气站的最高露点温度
Q2: 具具体时间范围、字段和天气站的原始数据提取
鸣谢
我们要感谢中央气象局和农委会农业气象观测网络(站)为准备、清理和分发此数据集所做的努力。我们感谢您们的努力。
Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 面向应用的深度学习模型用于台湾稻飞虱的预警。生态信息学 73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022年12月13日]