跳到主要内容
跳到主要内容

OPTIMIZE 语句

这个查询尝试初始化表的数据部分的无计划合并。请注意,我们通常不推荐使用 OPTIMIZE TABLE ... FINAL(请参见这些 文档),因为它的用例主要用于管理,而非日常操作。

备注

OPTIMIZE 不能修复 太多部分 错误。

语法

OPTIMIZE 查询支持 MergeTree 家族(包括 物化视图)和 Buffer 引擎。其他表引擎不被支持。

OPTIMIZEReplicatedMergeTree 家族的表引擎一起使用时,ClickHouse 会创建一个合并任务并等待在所有副本上执行(如果 alter_sync 设置为 2)或在当前副本上执行(如果 alter_sync 设置为 1)。

  • 如果 OPTIMIZE 因任何原因未执行合并,它不会通知客户端。要启用通知,请使用 optimize_throw_if_noop 设置。
  • 如果您指定了 PARTITION,则仅优化指定的分区。如何设置分区表达式
  • 如果您指定了 FINALFORCE,即使所有数据已经合并到一个部分,仍然会执行优化。您可以使用 optimize_skip_merged_partitions 设置来控制此行为。此外,即使正在执行并发合并,也会强制执行合并。
  • 如果您指定了 DEDUPLICATE,则完全相同的行(除非指定了 by 子句)将被去重(比较所有列),这仅对 MergeTree 引擎有意义。

您可以通过 replication_wait_for_inactive_replica_timeout 设置指定等待非活动副本执行 OPTIMIZE 查询的时间(以秒为单位)。

备注

如果 alter_sync 设置为 2,并且某些副本在指定的 replication_wait_for_inactive_replica_timeout 设置时间内没有变为活动状态,则会抛出异常 未完成

BY 表达式

如果您想根据自定义列集而非所有列进行去重,可以显式指定列的列表,或使用 *COLUMNSEXCEPT 表达式的任意组合。显式编写或隐式扩展的列列表必须包括行排序表达式(主键和排序键)和分区表达式(分区键)中指定的所有列。

备注

注意,* 的行为与 SELECT 中相同:MATERIALIZEDALIAS 列不用于扩展。

此外,指定空列列表或写出导致列列表为空的表达式,或通过 ALIAS 列进行去重都是错误的。

语法

示例

考虑以下表:

结果:

以下所有示例均在包含 5 行的状态下执行。

DEDUPLICATE

当未指定去重列时,所有列都会被考虑。只有当所有列中的值都等于前一行的对应值时,行才会被移除:

结果:

DEDUPLICATE BY *

当隐式指定列时,表将根据所有非 ALIASMATERIALIZED 的列进行去重。考虑上面的表,这些列是 primary_keysecondary_keyvaluepartition_key

结果:

DEDUPLICATE BY * EXCEPT

根据所有非 ALIASMATERIALIZED 的列去重,并显式不包括 valueprimary_keysecondary_keypartition_key 列。

结果:

DEDUPLICATE BY <列列表>

显式根据 primary_keysecondary_keypartition_key 列去重:

结果:

DEDUPLICATE BY COLUMNS(<正则表达式>)

根据匹配正则表达式的所有列进行去重:primary_keysecondary_keypartition_key 列:

结果: