跳到主要内容
跳到主要内容

Spark JDBC

JDBC是Spark中最常用的数据源之一。 在本节中,我们将提供有关如何 使用 ClickHouse官方JDBC连接器 与Spark的详细信息。

Read data

Write data

Parallelism

在使用Spark JDBC时,Spark使用单个分区读取数据。为了实现更高的并发性,您必须指定 partitionColumnlowerBoundupperBoundnumPartitions,这些描述了在从多个工作节点并行读取时如何对表进行分区。 请访问Apache Spark的官方文档以获取有关 JDBC配置 的更多信息。

JDBC Limitations

  • 截至今天,您只能通过JDBC向现有表插入数据(目前没有办法在DF插入时自动创建表,正如Spark与其他连接器所做的那样)。