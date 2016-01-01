机器学习

你可能听说过这样一个传闻：机器学习从业者80%的时间都花在数据清理上。无论这个神话是否真实，数据在机器学习问题中始终是核心，从开始到结束。无论你是在构建RAG管道、微调、训练自己的模型，还是评估模型性能，数据都是每个问题的根源。

管理数据可能很棘手，作为副产品，这个领域经历了一系列旨在通过解决机器学习数据问题特定切片来提高生产力的工具的激增。通常，这种情况表现为围绕更通用解决方案的抽象层，它具有指导性界面，从表面上看，可以更容易地应用于当前的特定子问题。实际上，这减少了通用解决方案中存在的灵活性，偏向于特定任务的易用性和简洁性。

这种方法有几个缺点。与支持应用代码结合的通用解决方案相比，专业工具、产品和服务的层叠套件存在更大的架构复杂性和数据成本的风险。你很容易发现自己拥有一长串工具和服务，每个工具只用于一个单一步骤。

这些风险通常有两个常见维度：

学习、维护和切换成本

机器学习架构可能会因为各种工具和组件的杂乱而变得难以学习和管理，产生更多的故障点和成本增长。

数据重复和传输成本

在机器学习管道中使用多个离散但重叠的数据系统，可能会引入不必要且通常成本高昂的数据传输开销。

一个很好的说明这个权衡的是向量数据库。向量数据库旨在针对非常特定的机器学习任务，存储和搜索向量。虽然在某些架构中这可能是正确的选择，但在其他架构中，向量数据库可能是技术栈中不必要的新添加，因为这是又一个需要集成、管理以及传输数据的系统。大多数现代通用数据库都内置了向量支持（或通过插件实现），并且有更广泛的交叉能力。换句话说，在那些架构中，可能根本没有必要额外再添加一个专门处理向量的数据库。关键在于这些向量特定便利功能（例如内置嵌入模型）是否是任务关键的，并且值得付出成本。

在定义机器学习问题、目标和成功标准之后，一个常见的第一步是探索将用于模型训练和评估的相关数据。

在此步骤中，数据被分析以理解其特征、分布和关系。这种评估和理解的过程是一个迭代的过程，通常导致在数据集上执行一系列临时查询，而查询的响应速度是至关重要的（以及其他因素，如成本效率和准确性）。随着公司存储越来越多的数据以利用于机器学习，检查现有数据的问题变得更加困难。

这是因为，传统数据系统的分析和评估查询在规模上通常变得乏味或 prohibitively 缓慢。一些大型厂商为了降低查询时间，会显著提高成本，并通过按查询收费或按扫描字节数收费来阻止临时评估。工程师可能会为了妥协这些限制而选择将数据子集下载到本地机器。

而ClickHouse是一个实时数据仓库，因此用户可以享受业内领先的分析计算查询速度。此外，ClickHouse从一开始就提供高性能，并且不会将关键的查询加速功能锁定在更高的定价等级。ClickHouse还可以直接从对象存储或数据湖查询数据，支持Iceberg、Delta Lake和Hudi等常见格式。这意味着无论你的数据存放在哪里，ClickHouse都可以作为你的机器学习工作负载的统一访问和计算层。

ClickHouse还拥有一整套可扩展至PB级数据的预构建统计和聚合函数，使编写和维护执行复杂计算的简单SQL变得容易。通过支持最细粒度的精确数据类型和编码，用户不需要担心减少数据的粒度。

尽管用户可以直接在ClickHouse中转换数据或在插入前使用SQL查询进行转换，但ClickHouse还可以在编程环境（如Python）中使用，通过chDB。这允许嵌入式ClickHouse作为Python模块暴露，并用于在笔记本中转换和操作大型数据帧。因此，数据工程师可以在客户端执行转化工作，结果可以作为特征表材料化在集中式的ClickHouse实例中。

接下来，数据被准备：清理、转换，并用于提取模型将用来训练和评估的特征。这个组件有时被称为特征生成或提取管道，是机器学习数据层的另一部分，通常会引入新工具。MLOps领域的公司如Neptune和Hopsworks提供了用于协调这些管道的不同数据转换产品的示例。然而，由于它们与所操作的数据库是独立工具，因此它们可能会脆弱，并可能导致需要手动修正的中断。

相比之下，通过物化视图，在ClickHouse中轻松完成数据转换。当新的数据插入ClickHouse源表时，它们会自动触发，用于在数据到达时轻松提取、转换和修改数据 - eliminating 不需要自己构建和监控定制管道。当这些转换需要对可能不适合内存的完整数据集进行聚合时，利用ClickHouse可以确保你无需尝试调整这一步骤以便与本地机器上的数据帧一起工作。对于那些在本地评估更方便的数据集，ClickHouse local是一个很好的替代选择，与chDB一起，使用户能够使用标准的Python数据库（如Pandas）来利用ClickHouse。

此时，特征将被划分为训练、验证和测试集。这些数据集被版本化，并随后在相应的阶段中使用。

在这一阶段，管道中常常会引入另一个专业工具到机器学习数据层 - 特征库。特征库通常是围绕数据库的抽象层，提供特定于管理模型训练、推断和评估的数据的便利功能。这些便利功能的例子包括版本控制、访问管理和自动将特征定义翻译为SQL语句。

在特征库中，ClickHouse可以作为：

数据源 - ClickHouse可以以70多种不同文件格式查询或摄取数据，包括数据湖格式如Iceberg和Delta Lake，使其成为理想的长期存储或查询数据的选择。通过使用对象存储分离存储和计算，ClickHouse Cloud还允许数据无限期存储 - 计算可缩减或完全停用，以最小化成本。灵活的编码，与列式存储和磁盘数据排序相结合，最大化压缩率，从而最小化所需的存储。用户可以轻松地将ClickHouse与数据湖结合，使用内置函数在对象存储中就地查询数据。

转换引擎 - SQL提供了一种自然声明数据转换的方式。当扩展ClickHouse的分析和统计函数时，这些转换变得简洁和优化。不仅可以应用于ClickHouse表，在ClickHouse作为数据存储的情况下，表函数还允许对存储在Parquet等格式中的数据、磁盘或对象存储上的数据，甚至其他数据存储（如Postgres和MySQL）写SQL查询。一个完全并行化的查询执行引擎，结合列式存储格式，使ClickHouse能够在几秒钟内对PB级的数据进行聚合 - 与内存数据帧的转换不同，用户不会受限于内存。此外，物化视图允许在插入时对数据进行转换，从而将计算重载从查询时间转移到数据加载时间。这些视图可以利用同一系列适合数据分析和汇总的分析和统计函数。如果ClickHouse现有的分析功能不足或需要集成自定义库，用户还可以利用用户定义函数（UDF）。

离线特征库用于模型训练。这通常意味着特征本身通过批处理数据转换管道生成（如上节所述），通常对这些特征的可用性没有严格的延迟要求。

通过能够从多个源读取数据并通过SQL查询应用转换，这些查询的结果也可以通过 INSERT INTO SELECT 语句持久化到ClickHouse中。由于转换通常按实体ID分组并返回多列作为结果，ClickHouse的模式推断可以自动检测这些结果所需的类型，并生成适当的表模式来存储它们。用于生成随机数和统计抽样的函数允许数据以每秒数百万行的速度高效迭代和扩展，以供模型训练管道使用。

通常，特征表示为带有时间戳的表，指示特定时间点上某个实体和特征的值。如前所述，训练管道通常需要在特定时间点和组中的特征状态。ClickHouse的稀疏索引允许快速过滤数据以满足时间点查询和特征选择过滤器。虽然其他技术如Spark、Redshift和BigQuery依赖于缓慢的状态窗口方法来识别特定时间点的特征状态，ClickHouse支持ASOF（截至当前时间）左连接查询和argMax函数。除了简化语法外，这种方法在大数据集上具有高性能，利用了排序和合并算法。这使得特征组能够快速构建，从而减少训练前的数据准备时间。

在线特征库用于存储用于推断的最新特征版本，并实时应用。这意味着这些特征需要以最小的延迟计算，因为它们是实时机器学习服务的一部分。

作为一个实时分析数据库，ClickHouse可以以低延迟服务高度并发的查询工作负载。虽然这需要数据通常是非规范化的，但这与训练和推断时使用的特征组的存储相符合。重要的是，ClickHouse能够在承受高写入工作负载的同时提供这种查询性能，得益于其日志结构合并树。这些特性是在线存储中保持特征更新所必需的。由于特征在离线存储中已经可用，因此可以轻松地将其材料化到同一ClickHouse集群或不同实例的新表中，通过现有能力，比如 remoteSecure 。通过Kafka的集成，无论是通过其仅一次的Kafka Connect提供，还是通过ClickPipes在ClickHouse Cloud中，都使从流数据源消费流数据变得简单可靠。

许多现代系统需要同时使用离线和在线存储，容易导致得出结论，这里需要两个专业的特征库。然而，这会增加同步这两个存储的复杂性，当然还包括在它们之间重复数据的成本。

像ClickHouse这样的实时数据仓库是一个可以同时支持离线和在线特征管理的单一系统。ClickHouse高效处理流数据和历史数据，并具备在实时推断和离线训练中提供所需的无限扩展、性能和并发性。

在考虑在此阶段使用特征库产品与直接利用实时数据仓库之间的权衡时，值得强调的是，可以通过设计表或模式等传统数据库范式实现版本控制等便利功能。其他功能，例如将特征定义转换为SQL语句，可能作为应用或业务逻辑的一部分提供更大的灵活性，而不是存在于一个有指导性的抽象层中。

模型推断是运行训练好的模型以获取输出的过程。当推断被数据库操作触发时 - 例如插入新记录或查询记录 - 推断步骤可以通过定制的作业或应用代码来管理。

另一方面，它也可以在数据层本身管理。ClickHouse的用户定义函数 (UDFs)，使用户能够在插入或查询时间直接从ClickHouse调用模型。这提供了将输入数据传递给模型、接收输出并自动将这些结果与摄取的数据一起存储的能力 - 所有这一切都无需启动其他进程或作业。这还提供了一个单一的接口，SQL，通过它来管理这一步骤。

向量存储是一种特定类型的数据库，优化用于存储和检索向量，通常是数据的一部分（如文本或图像）的嵌入，这些嵌入以数值形式捕捉其潜在含义。向量是当今生成性AI浪潮的核心，并在无数应用中使用。

向量数据库中的主要操作是“相似度搜索”，以根据数学度量找到“最接近”的向量。向量数据库受欢迎的原因在于它们采用特定策略，使这种检查 - 向量比较 - 尽可能快速。通常，这些技术意味着它们近似向量比较，而不是将输入向量与每一个存储的向量进行比较。

这一新工具类的问题在于，许多通用数据库，包括ClickHouse，内置了向量支持，并且通常也内置了这些近似方法的实现。特别是，ClickHouse旨在高性能的大规模分析 - 使你能够非常有效地执行不近似的向量比较。这意味着你可以获得精确的结果，而不必依赖于近似，同时不牺牲速度。

一旦你的机器学习应用上线，它将生成数据，包括日志和追踪数据，这些数据提供了对模型行为、性能和潜在改进领域的宝贵洞察。

基于SQL的可观察性是ClickHouse的另一个关键用例，在这里，ClickHouse被发现在成本效益上比替代方案高出10到100倍。事实上，许多可观察性产品本身都是在ClickHouse的支持下构建的。凭借业内最佳的摄取速率和压缩比，ClickHouse为任何规模的机器学习可观察性提供了成本效率和惊人的速度。