Spark JDBC
JDBCは、Sparkで最も一般的に使用されるデータソースの1つです。 このセクションでは、Sparkと共に使用するためのClickHouse公式JDBCコネクタの詳細を提供します。
データの読み取り
- Java
- Scala
- Python
- Spark SQL
データの書き込み
- Java
- Scala
- Python
- Spark SQL
並列性
Spark JDBCを使用する場合、Sparkは単一のパーティションを使用してデータを読み取ります。より高い同時実行性を達成するためには、partitionColumn
、lowerBound
、upperBound
、およびnumPartitions
を指定する必要があり、これは複数のワーカーから並列して読み取る際のテーブルのパーティショニング方法を説明します。
詳細については、Apache Sparkの公式ドキュメントにある JDBCの構成をご覧ください。
JDBCの制限
- 現在のところ、JDBCを使用して既存のテーブルにのみデータを挿入することができます(DF挿入時にテーブルを自動作成する方法はなく、Sparkが他のコネクタで行うように)。