将 Apache Spark 集成到 ClickHouse 中
ClickHouse Supported
Apache Spark 是一个多语言引擎,可在单机或集群上执行数据工程、数据科学和机器学习任务。
将 Apache Spark 与 ClickHouse 连接主要有两种方式:
- Spark Connector - Spark 连接器实现了
DataSourceV2,并拥有自己的目录管理功能。目前,这是集成 ClickHouse 和 Spark 的首选方式。 - Spark JDBC - 使用 JDBC 数据源 集成 Spark 和 ClickHouse。
这两种方案都已经过成功测试,并与包括 Java、Scala、PySpark 和 Spark SQL 在内的各类 API 完全兼容。