OPTIMIZE 语句
该查询尝试初始化表中数据部分的非计划合并。请注意,我们通常建议不要使用 OPTIMIZE TABLE ... FINAL
(参见这些 文档),因为其使用案例是为了管理,而不是日常操作。
OPTIMIZE
无法修复 Too many parts
错误。
语法
OPTIMIZE
查询支持 MergeTree 家族(包括 物化视图)和 Buffer 引擎。其他表引擎不支持此功能。
当 OPTIMIZE
与 ReplicatedMergeTree 家族的表引擎一起使用时,ClickHouse 会创建一个合并任务,并在所有副本上等待执行(如果 alter_sync 设置为 2
),或者在当前副本上执行(如果 alter_sync 设置为 1
)。
- 如果
OPTIMIZE
由于某种原因没有执行合并,它不会通知客户端。要启用通知,请使用 optimize_throw_if_noop 设置。 - 如果您指定了
PARTITION
,则仅优化指定的分区。如何设置分区表达式。 - 如果您指定
FINAL
或FORCE
,则即使所有数据已经在一个部分中,也会执行优化。您可以使用 optimize_skip_merged_partitions 来控制此行为。此外,即使执行并发合并,也会强制合并。 - 如果您指定
DEDUPLICATE
,那么完全相同的行(除非指定了 by 子句)将被去重(比较所有列),这仅适用于 MergeTree 引擎。
您可以通过 replication_wait_for_inactive_replica_timeout 设置来指定等待非活动副本执行 OPTIMIZE
查询的时间(以秒为单位)。
如果 alter_sync
设置为 2
,而某些副本在 replication_wait_for_inactive_replica_timeout
设置指定的时间超过后仍未激活,则会抛出异常 UNFINISHED
。
BY expression
如果您希望在自定义列集合上执行去重,而不是在所有列上,您可以显式指定列列表,或者使用 *
、COLUMNS
或 EXCEPT
表达式的任意组合。显式写入或隐式扩展的列列表必须包括行排序表达式(主键和排序键)以及分区表达式(分区键)中指定的所有列。
语法
示例
考虑以下表:
结果:
所有随后的示例都在具有 5 行的此状态下执行。
DEDUPLICATE
当未指定去重列时,将考虑所有列。仅当所有列的值与前一行的对应值相等时,行才会被移除:
结果:
DEDUPLICATE BY *
当隐式指定列时,表将按所有非 ALIAS
或 MATERIALIZED
列去重。考虑上述表,这些列为 primary_key
、secondary_key
、value
和 partition_key
列:
结果:
DEDUPLICATE BY * EXCEPT
按所有非 ALIAS
或 MATERIALIZED
列去重,并显式排除 value
:primary_key
、secondary_key
和 partition_key
列。
结果:
DEDUPLICATE BY <list of columns>
按 primary_key
、secondary_key
和 partition_key
列显式去重:
结果:
DEDUPLICATE BY COLUMNS(<regex>)
按所有匹配正则表达式的列去重:primary_key
、secondary_key
和 partition_key
列:
结果: