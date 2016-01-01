惰性物化

本文介绍了惰性物化的工作原理，以及它在 ClickHouse 更广泛的 I/O 优化栈中的作用。 文中给出了一个实际示例，演示惰性物化如何提升查询性能。

自 25.4 版本起提供 惰性物化在 ClickHouse 25.4 版本中引入，并默认启用。

多年来，ClickHouse 引入了一系列分层优化来大幅减少 I/O。 这些技术构成了其高速与高效的基础：

尽管上述 I/O 优化可以显著减少读取的数据量，但它们仍然默认：所有通过 WHERE 子句筛选的行，其所有列都必须在执行排序、聚合或 LIMIT 等操作之前被加载。 但如果有些列要到后续步骤才会用到，或者部分数据虽然通过了 WHERE 子句筛选，但实际上根本不会被用到，又该怎么办？

这就是 lazy materialization 发挥作用的地方。它是一个正交的增强功能，使 I/O 优化体系更加完整：

索引与 PREWHERE 结合，确保只处理在 WHERE 子句中匹配列过滤条件的行。

结合，确保只处理在 子句中匹配列过滤条件的行。 Lazy materialization 在此基础上，通过将列读取推迟到查询执行计划实际需要它们时才进行。 即便在过滤之后，也只会立刻加载下一步操作（例如排序）所需的列。 其他列会被延后读取，并且由于 LIMIT 的存在，通常只会被部分读取，仅需足以产生最终结果的数据即可。 这使得 lazy materialization 对 Top N 查询尤其强大，因为最终结果可能只需要来自某些（通常很大）列的少量行。

我们强烈推荐阅读博文 "ClickHouse gets lazier (and faster): Introducing lazy materialization"，以深入了解惰性物化。下面的示例取自前述博文，并在此复现，用于演示在启用惰性物化后，如何将一个 ClickHouse 查询的执行时间从 219 秒减少到仅 139 毫秒（加速 1576×）。

为了从索引和 PREWHERE 中获益，查询需要包含过滤条件：对主键列的过滤用于索引，对任意列的过滤用于 PREWHERE 。 惰性物化可以很自然地叠加在这些机制之上，但与前面提到的其他优化不同的是，它同样可以加速完全没有列过滤条件的查询。

考虑下列示例查询：在不考虑日期、产品、评分或验证状态的前提下，它查找获得最多 helpful votes 的 Amazon 评论，并返回排名前 3 条及其标题、摘要和完整文本。

首先在禁用惰性物化的情况下（使用 query_plan_optimize_lazy_materialization ），并在文件系统缓存尚未预热（冷缓存）时运行该查询：

SELECT helpful_votes, product_title, review_headline, review_body FROM amazon.amazon_reviews ORDER BY helpful_votes DESC LIMIT 3 FORMAT Vertical SETTINGS query_plan_optimize_lazy_materialization = false;

Row 1: ────── helpful_votes: 47524 product_title: Kindle: Amazon's Original Wireless Reading Device (1st generation) review_headline: Why and how the Kindle changes everything review_body: This is less a \"pros and cons\" review than a hopefully use... Row 2: ────── helpful_votes: 41393 product_title: BIC Cristal For Her Ball Pen, 1.0mm, Black, 16ct (MSLP16-Blk) review_headline: FINALLY! review_body: Someone has answered my gentle prayers and FINALLY designed ... Row 3: ────── helpful_votes: 41278 product_title: The Mountain Kids 100% Cotton Three Wolf Moon T-Shirt review_headline: Dual Function Design review_body: This item has wolves on it which makes it intrinsically swee... # highlight-start 0 rows in set. Elapsed: 219.071 sec. Processed 150.96 million rows, 71.38 GB (689.08 thousand rows/s., 325.81 MB/s.) Peak memory usage: 1.11 GiB. # highlight-end

接下来，在同样是冷文件系统缓存的情况下再次运行该查询，不过这一次启用了惰性物化：

SELECT helpful_votes, product_title, review_headline, review_body FROM amazon.amazon_reviews ORDER BY helpful_votes DESC LIMIT 3 FORMAT Vertical SETTINGS -- highlight-next-line query_plan_optimize_lazy_materialization = true;

提示 通常你不需要显式将 query_plan_optimize_lazy_materialization = true 设为 true，就能获得延迟物化带来的收益。 该特性默认已启用。

Row 1: ────── helpful_votes: 47524 product_title: Kindle: Amazon's Original Wireless Reading Device (1st generation) review_headline: Why and how the Kindle changes everything review_body: This is less a \"pros and cons\" review than a hopefully use... Row 2: ────── helpful_votes: 41393 product_title: BIC Cristal For Her Ball Pen, 1.0mm, Black, 16ct (MSLP16-Blk) review_headline: FINALLY! review_body: Someone has answered my gentle prayers and FINALLY designed ... Row 3: ────── helpful_votes: 41278 product_title: The Mountain Kids 100% Cotton Three Wolf Moon T-Shirt review_headline: Dual Function Design review_body: This item has wolves on it which makes it intrinsically swee... # highlight-start 0 rows in set. Elapsed: 0.139 sec. Processed 150.96 million rows, 1.81 GB (1.09 billion rows/s., 13.06 GB/s.) Peak memory usage: 3.80 MiB. # highlight-end

比较关闭和开启延迟物化时的性能差异：

指标 关闭延迟物化 启用延迟物化 改进效果 耗时 219.071 sec 0.139 sec ~快 1576× 读取数据量 71.38 GB 1.81 GB ~减少 40× 峰值内存 1.11 GiB 3.80 MiB ~减少 300×

你可以通过使用 EXPLAIN 子句检查查询的逻辑执行计划，来确认上一条查询是否使用了惰性物化：

EXPLAIN actions = 1 SELECT helpful_votes, product_title, review_headline, review_body FROM amazon.amazon_reviews ORDER BY helpful_votes DESC LIMIT 3 SETTINGS query_plan_optimize_lazy_materialization = true;

... # highlight-next-line Lazily read columns: review_headline, review_body, product_title Limit Sorting ReadFromMergeTree

你可以自下而上阅读算子计划，会发现 ClickHouse 会将对这三个体积较大的 String 列的读取推迟到排序和 LIMIT 之后才执行。