跳到主要内容
跳到主要内容

环境传感器数据

Sensor.Community 是一个由贡献者驱动的全球传感器网络,用于创建开放的环境数据。这些数据是从全球各地的传感器收集的。任何人都可以购买传感器并将其放置在自己喜欢的地方。用于下载数据的 API 在 GitHub 上,数据根据 数据库内容许可协议 (DbCL) 自由提供。

信息

数据集中有超过 200 亿条记录,因此除非您的资源可以处理此类高容量,否则请小心仅复制粘贴下面的命令。下面的命令是在 ClickHouse Cloud生产 实例上执行的。

  1. 数据在 S3 中,因此我们可以使用 s3 表函数从文件中创建一个表。我们还可以就地查询数据。在尝试将其插入 ClickHouse 之前,先查看几行数据:

数据以 CSV 文件的形式存储,但使用分号作为分隔符。行的格式如下:

  1. 我们将使用以下 MergeTree 表将数据存储在 ClickHouse 中:
  1. ClickHouse Cloud 服务有一个名为 default 的集群。我们将使用 s3Cluster 表函数,该函数从集群中的节点并行读取 S3 文件。(如果您没有集群,只需使用 s3 函数并删除集群名称。)

这个查询将花费一些时间 - 数据未压缩约为 1.67T:

这是响应 - 显示了行数和处理速度。输入速率超过每秒 600 万行!

  1. 让我们看看 sensors 表需要多少存储磁盘:

1.67T 被压缩到 310 GiB,并且有 206.9 亿行:

  1. 现在让我们分析数据,看看自传感器部署以来数据的数量是如何随时间增加的:

我们可以在 SQL 控制台中创建图表以可视化结果:

  1. 这个查询计算过于炎热和潮湿的天数:

这是结果的可视化: