跳到主要内容
跳到主要内容

台湾历史天气数据集

这个数据集包含过去128年的历史气象观测测量记录。每一行都是某个时间点和天气站的测量值。

该数据集的来源可以在这里找到,天气站编号的列表可以在这里找到。

气象数据集的来源包括中央气象局建立的气象站(站代码以C0、C1和4开头)以及属于农业委员会的农业气象站(站代码不包括上述提到的情况):

  • StationId
  • MeasuredDate,观测时间
  • StnPres,站点气压
  • SeaPres,海平面气压
  • Td,露点温度
  • RH,相对湿度
  • 其他可用元素

下载数据

  • 一份适用于ClickHouse的预处理版本,已清理、重组和增强。该数据集涵盖1896年至2023年。
  • 下载原始原始数据并转换为ClickHouse要求的格式。希望添加自己列的用户可以探索或完成自己的方法。

预处理数据

该数据集已从每行一个测量值重组为每个天气站ID和测量日期一行,例如:

查询变得简单,并且确保结果表更少稀疏,某些元素为null,因为它们在该气象站不可用。

该数据集可在以下Google Cloud Storage位置找到。用户可以将数据集下载到本地文件系统(并使用ClickHouse客户端插入)或直接插入ClickHouse中(请参见从URL插入)。

下载方式如下:

原始原始数据

以下是下载原始原始数据以进行转换和处理的步骤。

下载

要下载原始原始数据:

检索台湾天气站

创建表结构

在ClickHouse中创建MergeTree表(来自ClickHouse客户端)。

插入到ClickHouse中

从本地文件插入

可以通过以下方式从本地文件插入数据(来自ClickHouse客户端):

其中/path/to表示本地文件在磁盘上的具体用户路径。

插入数据后,示例响应输出如下:

从URL插入

要了解如何加速这一过程,请参阅我们关于优化大数据加载的博客文章。

检查数据行和大小

  1. 让我们看看插入了多少行:
  1. 让我们查看该表使用了多少磁盘空间:

示例查询

Q1:检索特定年份每个天气站的最高露点温度

Q2:以特定时间范围、字段和天气站raw数据获取

致谢

我们要感谢中央气象局和农业委员会农业气象观测网络(站)的努力,他们为准备、清理和分发此数据集做出了贡献。我们对此表示感谢。

Ou, J.-H., Kuo, C.-H., Wu, Y.-F., Lin, G.-C., Lee, M.-H., Chen, R.-K., Chou, H.-P., Wu, H.-Y., Chu, S.-C., Lai, Q.-J., Tsai, Y.-C., Lin, C.-C., Kuo, C.-C., Liao, C.-T., Chen, Y.-N., Chu, Y.-W., Chen, C.-Y., 2023. 面向应用的深度学习模型用于台湾稻瘟病的早期预警。生态信息学73, 101950. https://doi.org/10.1016/j.ecoinf.2022.101950 [2022年12月13日]