Reddit 评论数据集

这个数据集包含从2005年12月到2023年3月的公开可用Reddit评论，数据量超过140亿行。原始数据为JSON格式，存储在压缩文件中，行数据如下所示：

特别感谢Percona提供的获取该数据集的动力，我们已将其下载并存储在S3桶中。

创建表

备注

以下命令在设置最低内存为720GB的ClickHouse Cloud生产实例上执行。要在您自己的集群上运行此命令，请将s3Cluster函数调用中的default替换为您的集群名称。如果您没有集群，请将s3Cluster函数替换为s3函数。

备注

S3中的文件名以RC_YYYY-MM开头，YYYY-MM的范围从2005-12到2023-02。不过，压缩方式有几次变化，因此文件扩展名并不一致。例如：

...到：

如果您没有集群，请使用s3而不是s3Cluster：

请注意，磁盘存储的压缩量约为未压缩大小的1/3：

这是一个需要处理所有146.9亿行的大查询，但我们仍然得到了不错的响应时间（大约48秒）：

还有一个查询：让我们将ClickHouse的提及与其他技术进行比较，例如Snowflake和Postgres。这个查询很大，因为它必须在146.9亿条评论中搜索三次子字符串，但性能实际上相当出色。（不幸的是，ClickHouse用户在Reddit上尚不够活跃）：