跳到主要内容
跳到主要内容

Spark JDBC

JDBC 是 Spark 中最常用的数据源之一。 在本节中,我们将提供有关如何在 Spark 中使用 ClickHouse 官方 JDBC 连接器 的详细信息。

读取数据

写入数据

并行性

使用 Spark JDBC 时,Spark 使用单个分区读取数据。要实现更高的并发性,您必须指定 partitionColumnlowerBoundupperBoundnumPartitions,这些选项描述了如何在从多个工作节点并行读取时对表进行分区。 有关更多信息,请访问 Apache Spark 的官方文档,了解 JDBC 配置

JDBC 限制

  • 截至目前,您只能通过 JDBC 向现有表中插入数据(目前没有方法在 DF 插入时自动创建表,正如 Spark 在使用其他连接器时所做的那样)。