将 Apache Spark 与 ClickHouse 集成
Apache Spark 是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。
将 Apache Spark 和 ClickHouse 连接的主要方式有两种:
- Spark Connector - Spark 连接器实现了
DataSourceV2
并具有自己的目录管理。截至目前,这是集成 ClickHouse 和 Spark 的推荐方式。 - Spark JDBC - 使用 JDBC 数据源 集成 Spark 和 ClickHouse。
这两种解决方案均已成功测试,并与各种 API 完全兼容,包括 Java、Scala、PySpark 和 Spark SQL。