进阶教程
概述
了解如何使用纽约市出租车示例数据集在 ClickHouse 中摄取和查询数据。
前置条件
您需要访问正在运行的 ClickHouse 服务才能完成本教程。有关说明,请参阅快速入门指南。
创建新表
纽约市出租车数据集包含数百万次出租车行程的详细信息,其中的列包括小费金额、过路费、支付方式等。创建一个表来存储这些数据。
-
连接到 SQL 控制台:
- 对于 ClickHouse Cloud,从下拉菜单中选择一个服务,然后在左侧导航菜单中选择 SQL Console。
- 对于自托管的 ClickHouse,在
https://_hostname_:8443/play上连接到 SQL 控制台。请向你的 ClickHouse 管理员确认详细信息。
-
在
default数据库中创建以下trips表:
添加数据集
表已经创建好之后,接下来从 S3 中的 CSV 文件中添加纽约市出租车数据。
-
以下命令会从 S3 中的两个文件:
trips_1.tsv.gz和trips_2.tsv.gz,向你的trips表插入约 2,000,000 行数据: -
等待
INSERT完成。下载 150 MB 数据可能需要一点时间。 -
插入完成后,验证是否成功:
此查询应返回 1,999,657 行。
分析数据
运行查询以分析数据。您可以参考以下示例或尝试编写自己的 SQL 查询。
-
计算平均小费金额:
预期输出
-
根据乘客数量计算平均费用:
预期输出
passenger_count的范围为 0 到 9: -
计算每个街区的每日接客次数:
预期输出
-
计算每次行程的时长(以分钟为单位),然后按行程时长对结果进行分组:
预期输出
-
显示每个社区按小时统计的接客次数:
预期输出
-
查询前往 LaGuardia 或 JFK 机场的行程:
预期输出
创建字典
字典是在内存中存储的键值对映射。详情请参见 Dictionaries
在你的 ClickHouse 服务中创建一个与表关联的字典。 该表和字典基于一个 CSV 文件,其中每一行代表纽约市的一个社区。
这些社区会被映射到纽约市五个行政区(Bronx、Brooklyn、Manhattan、Queens 和 Staten Island)的名称,以及纽瓦克机场(EWR)。
下面是你正在使用的 CSV 文件的一个片段,以表格形式展示。文件中的 LocationID 列会映射到 trips 表中的 pickup_nyct2010_gid 和 dropoff_nyct2010_gid 列:
| LocationID | Borough | Zone | service_zone |
|---|---|---|---|
| 1 | EWR | Newark Airport | EWR |
| 2 | Queens | Jamaica Bay | Boro Zone |
| 3 | Bronx | Allerton/Pelham Gardens | Boro Zone |
| 4 | Manhattan | Alphabet City | Yellow Zone |
| 5 | Staten Island | Arden Heights | Boro Zone |
- 运行以下 SQL 命令,创建一个名为
taxi_zone_dictionary的字典,并从存储在 S3 中的 CSV 文件填充该字典。文件的 URL 为https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/taxi_zone_lookup.csv。
将 LIFETIME 设置为 0 会禁用自动更新,从而避免对我们的 S3 存储桶产生不必要的流量。在其他情况下,您可以根据需要进行不同配置。详情请参阅 Refreshing dictionary data using LIFETIME。
-
验证其是否生效。下面的查询应返回 265 行,即每个 neighborhood 一行:
-
使用
dictGet函数(或其变体)从字典中检索值。您需要传入字典名称、要获取的字段以及键(在本示例中为taxi_zone_dictionary表中的LocationID列)。例如,下面的查询会返回
LocationID为 132 的Borough,该值对应于 JFK 机场:JFK 位于 Queens。注意检索该值所耗时间基本为 0:
-
使用
dictHas函数检查字典中是否存在某个键。例如,下面的查询返回1(在 ClickHouse 中表示 “true”): -
下面的查询返回 0,因为 4567 不是字典中
LocationID的取值: -
使用
dictGet函数在查询中检索 borough 的名称。例如:
此查询汇总了各行政区在拉瓜迪亚机场或 JFK 机场结束的出租车行程次数。结果如下所示,可以注意到有相当多行程的上车区域是未知的:
执行连接查询
编写一些查询语句,将 taxi_zone_dictionary 与 trips 表进行连接。
-
首先从一个简单的
JOIN开始,其作用类似于上面的机场查询:响应结果与
dictGet查询相同:注意请注意,上述
JOIN查询的输出结果与之前使用dictGetOrDefault的查询相同(除了不包含Unknown值)。在底层实现中,ClickHouse 实际上是在为taxi_zone_dictionary字典调用dictGet函数,但JOIN语法对 SQL 开发人员来说更加熟悉。 -
此查询返回小费金额最高的 1000 次行程,然后对每一行与字典执行内连接:
注意通常情况下,我们应避免在 ClickHouse 中频繁使用
SELECT *。您应该只检索实际需要的列。
后续步骤
通过以下文档进一步了解 ClickHouse:
- ClickHouse 主索引(Primary Index)简介:了解 ClickHouse 如何使用稀疏主索引在查询期间高效定位相关数据。
- 集成外部数据源:查看数据源集成选项,包括文件、Kafka、PostgreSQL、数据管道等多种方式。
- 在 ClickHouse 中可视化数据:将您常用的 UI/BI 工具连接到 ClickHouse。
- SQL 参考:浏览 ClickHouse 中用于转换、处理和分析数据的 SQL 函数。