快速入门
欢迎使用 ClickHouse!
在这个快速入门教程中,我们将通过 8 个简单的步骤来帮助您设置环境。您将下载适用于您操作系统的二进制文件,学习如何运行 ClickHouse 服务器,并使用 ClickHouse 客户端创建表,然后向其中插入数据并运行查询以选择这些数据。
让我们开始吧?
下载 ClickHouse
ClickHouse 原生支持 Linux、FreeBSD 和 macOS,并可以通过 WSL 在 Windows 上运行。下载 ClickHouse 本地版本的最简单方法是运行以下 curl
命令。它会检测您的操作系统是否受支持,然后下载适合的 ClickHouse 二进制文件。
我们建议您在一个新的空子目录中运行下面的命令,因为一些配置文件将在初次运行 ClickHouse 服务器时在二进制文件所在的目录中创建。
您应该会看到:
在这一阶段,您可以忽略提示运行 install
命令。
对于 Mac 用户:如果您遇到无法验证二进制文件开发者的错误,请参考 "修复 MacOS 中的开发者验证错误"。
启动客户端
使用 clickhouse-client
连接到您的 ClickHouse 服务。打开一个新终端,切换到您的 clickhouse
二进制文件保存的目录,并运行以下命令:
您应该看到一个微笑的图标,表示您已连接到运行在 localhost 上的服务:
插入您自己的数据
下一步是将您自己的数据导入 ClickHouse。我们有很多 表函数 和 集成方案 用于数据摄取。下面的选项卡中提供了一些示例,或者您可以查看我们的 Integrations 页面,以获取与 ClickHouse 集成的技术的详细列表。
- S3
- GCS
- Web
- Local
- PostgreSQL
- MySQL
- ODBC/JDBC
- Message Queues
- Data Lakes
- Other
使用 s3
表函数 从 S3 读取文件。这是一个表函数——意味着结果是一个可以:
- 作为
SELECT
查询的源(允许您运行临时查询并将数据保留在 S3 中),或者... - 将结果表插入到
MergeTree
表中(当您准备将数据移动到 ClickHouse 时)
一个临时查询的示例:
移动数据到 ClickHouse 表的示例如下,其中 nyc_taxi
是一个 MergeTree
表:
查看我们的 AWS S3 文档页面 以获取有关如何使用 S3 的更多详细信息和示例。
使用 file
表引擎 从本地文件读取数据。为了简单起见,将文件复制到 user_files
目录中(该目录位于您下载 ClickHouse 二进制文件的目录中)。
请注意,ClickHouse 通过分析大量行来推断您列的名称和数据类型。如果 ClickHouse 无法从文件名中确定文件格式,您可以将其作为第二个参数指定:
阅读 file
表函数 文档页面以获取更多详细信息。
消息队列可以通过相应的表引擎将数据流入 ClickHouse,包括:
- Kafka:使用
Kafka
表引擎 集成 Kafka - Amazon MSK:集成 Amazon Managed Streaming for Apache Kafka (MSK)
- RabbitMQ:使用
RabbitMQ
表引擎 集成 RabbitMQ
ClickHouse 具有从以下来源读取数据的表函数:
- Hadoop:使用
hdfs
表函数 集成 Apache Hadoop - Hudi:使用
hudi
表函数 从 S3 中现有的 Apache Hudi 表读取数据 - Iceberg:使用
iceberg
表函数 从 S3 中现有的 Apache Iceberg 表读取数据 - DeltaLake:使用
deltaLake
表函数 从 S3 中现有的 Delta Lake 表读取数据
查看我们的 ClickHouse 集成长列表,以了解如何将现有框架和数据源连接到 ClickHouse。
探索
- 查看我们的 核心概念 部分,了解 ClickHouse 的一些基本原理。
- 查看 高级教程,该教程对 ClickHouse 的关键概念和功能进行了更深入的探讨。
- 通过我们在 ClickHouse Academy 的免费的按需培训课程继续您的学习。
- 我们有一个 示例数据集 的列表,附有插入它们的说明。
- 如果您的数据来自外部源,请查看我们的 集成指南集合,以了解如何连接消息队列、数据库、管道等。
- 如果您使用的是 UI/BI 可视化工具,请查看 连接 UI 到 ClickHouse 的用户指南。
- 关于 主键 的用户指南包含了您需要了解的所有内容,以及如何定义主键。