ClickHouse 开源版快速开始
在本快速入门教程中,我们将通过几个简单步骤帮助你完成开源版 ClickHouse 的设置。你将使用 ClickHouse CLI
clickhousectl安装 ClickHouse, 启动 ClickHouse 服务端,连接到服务器来创建一张表, 向其中插入数据,并执行一条 SELECT 查询。
安装 ClickHouse CLI \
ClickHouse CLI (clickhousectl) 用于安装和管理本地 ClickHouse 版本、启动服务器及执行查询。使用以下命令安装:
系统还会自动创建 chctl 别名以方便使用。
插入您自己的数据 [#insert-own-data}
下一步是将您自己的数据导入 ClickHouse。我们提供了大量表函数和集成方案用于摄取数据。以下标签页中提供了一些示例,您也可以查阅我们的集成方案页面,了解与 ClickHouse 集成的完整技术列表。
- S3
- GCS
- Web
- 本地
- PostgreSQL
- MySQL
- ODBC/JDBC
- 消息队列
- 数据湖
- 其他
使用 s3 表函数 从
S3 读取文件。它是一个表函数——也就是说,结果是一个表,
可以:
- 作为
SELECT查询的数据源使用 (这样你就可以执行临时查询,并 将数据保留在 S3 中) ,或者…… - 将结果表插入
MergeTree表 (当你准备好 将数据迁移到 ClickHouse 时)
临时查询示例如下:
将数据写入 ClickHouse 表的方式如下所示,其中
nyc_taxi 是一个 MergeTree 表:
查看我们的 AWS S3 文档页面合集,获取更多有关 S3 与 ClickHouse 搭配使用的详细说明和示例。
使用 file 表引擎
读取本地文件。为简化操作,请将该文件复制到 user_files 目录
(该目录位于你下载 ClickHouse 二进制文件所在的目录中) 。
请注意,ClickHouse 会通过分析大量 行来推断列名和数据类型。如果 ClickHouse 无法根据 文件名确定文件格式,您可以将其指定为第二个参数:
更多详情,请参阅file 表函数文档页面。
消息队列可以通过相应的表引擎将数据流式写入 ClickHouse,包括:
- Kafka:使用
Kafka表引擎 集成 Kafka - Amazon MSK:集成 Amazon Managed Streaming for Apache Kafka (MSK)
- RabbitMQ:使用
RabbitMQ表引擎 集成 RabbitMQ
ClickHouse 提供了可从以下来源读取数据的表函数:
- Hadoop:使用
hdfs表函数 与 Apache Hadoop 集成 - Hudi:使用
hudi表函数 从 S3 中现有的 Apache Hudi 表读取数据 - Iceberg:使用
iceberg表函数 从 S3 中现有的 Apache Iceberg 表读取数据 - DeltaLake:使用
deltaLake表函数 从 S3 中现有的 Delta Lake 表读取数据
查看我们的 ClickHouse 集成长列表,了解如何将您现有的框架和数据源连接到 ClickHouse。
探索
- 查看我们的 Core Concepts 部分,了解 ClickHouse 底层工作原理的基础知识。
- 请参阅进阶教程,其中会更深入地介绍 ClickHouse 的关键概念和功能。
- 通过 ClickHouse Academy 的免费线点播培训课程,继续学习。
- 我们整理了一份示例数据集列表,并附有插入说明。
- 如果您的数据来自外部源,请参阅我们的集成指南汇总,了解如何连接消息队列、数据库、管道等。
- 如果你使用的是 UI/BI 可视化工具,请参阅将 UI 连接到 ClickHouse 的用户指南。
- 主键用户指南全面介绍了有关主键及其定义方法的所有内容。