Spark JDBC
JDBCはSparkで最も一般的に使用されるデータソースの一つです。 このセクションでは、Sparkでの ClickHouse公式JDBCコネクタ の使用方法について説明します。
Read data
- Java
- Scala
- Python
- Spark SQL
Write data
- Java
- Scala
- Python
- Spark SQL
Parallelism
Spark JDBCを使用する際、Sparkはデータを単一のパーティションを使用して読み取ります。より高い同時実行性を実現するには、partitionColumn
、lowerBound
、upperBound
、およびnumPartitions
を指定する必要があります。これにより、複数のワーカーから並行して読み取る際にテーブルをどのようにパーティション分けするかが説明されます。
詳細については、Apache Sparkの公式ドキュメントで JDBC設定 をご覧ください。
JDBC Limitations
- 現在、JDBCを使用してデータを挿入できるのは既存のテーブルのみです(DFの挿入時にテーブルを自動作成する方法は現在ありません。他のコネクタのようにSparkが行うように)。