环境传感器数据
Sensor.Community 是一个由贡献者驱动的全球传感器网络,创建开放环境数据。这些数据来自全世界的传感器。任何人都可以购买传感器并将其放置在任何他们喜欢的地方。下载数据的 API 在 GitHub 上,数据根据 Database Contents License (DbCL) 自由提供。
信息
该数据集拥有超过 200 亿条记录,因此在复制粘贴以下命令时请小心,除非您的资源能够处理这种量级。这些命令是在 ClickHouse Cloud 的 Production 实例上执行的。
- 数据存储在 S3 中,因此我们可以使用
s3表函数从文件创建一个表。我们也可以在原地查询数据。在尝试将其插入到 ClickHouse 之前,让我们先查看几行数据:
数据以 CSV 文件形式存在,但使用分号作为分隔符。行的格式如下:
- 我们将使用以下
MergeTree表来在 ClickHouse 中存储数据:
- ClickHouse Cloud 服务有一个名为
default的集群。我们将使用s3Cluster表函数,从您集群中的节点并行读取 S3 文件。(如果您没有集群,只需使用s3函数并删除集群名称。)
这个查询会花费一些时间 - 未压缩的数据约为 1.67T:
这是响应 - 显示行数和处理速度。输入速率超过每秒 600 万行!
- 让我们看看
sensors表需要多少存储空间:
1.67T 的数据压缩到 310 GiB,且有 20.69 亿行:
- 现在数据已经在 ClickHouse 中,让我们分析一下。请注意,随着更多传感器的部署,数据量随时间增加:
我们可以在 SQL 控制台中创建一个图表来可视化结果:

- 这个查询计算了过热和潮湿天气的天数:
以下是结果的可视化:
