본문으로 바로가기
본문으로 바로가기

오픈 테이블 형식을 직접 쿼리하기

ClickHouse는 객체 스토리지에 저장된 오픈 테이블 형식의 데이터를 직접 쿼리할 수 있는 테이블 함수(table function)를 제공합니다. 이를 위해 외부 카탈로그에 연결할 필요가 없습니다. AWS Athena가 S3에서 데이터를 읽는 방식과 유사하게, 저장된 위치에서 바로 데이터를 쿼리합니다.

함수 호출에 스토리지 경로와 자격 증명을 직접 전달하면 나머지는 ClickHouse가 처리합니다. 모든 ClickHouse SQL 구문과 함수를 사용할 수 있으며, 쿼리는 ClickHouse의 병렬 실행과 효율적인 네이티브 Parquet 리더의 이점을 누릴 수 있습니다.

서버, local 또는 chDB

이 가이드의 단계는 기존 ClickHouse 서버 설치 환경에서 실행할 수 있습니다. 임시로 쿼리해야 하는 경우에는 서버를 실행하지 않고도 clickhouse-local을 사용해 동일한 워크플로를 수행할 수 있습니다. 약간만 조정하면 ClickHouse의 인프로세스 배포판인 chDB를 사용해 이 과정을 수행할 수도 있습니다.

다음 예제에서는 각 레이크하우스 형식으로 S3에 저장된 hits 데이터세트를 사용합니다. 각 레이크 형식마다 각 객체 스토리지 제공자에 대응하는 전용 함수가 제공됩니다.

iceberg 테이블 함수(icebergS3의 별칭)는 객체 스토리지에서 직접 Iceberg 테이블을 읽어옵니다. 각 스토리지 백엔드에 대한 변형으로 icebergS3, icebergAzure, icebergHDFS, icebergLocal이 있습니다.

예시 구문:

icebergS3(url [, NOSIGN | access_key_id, secret_access_key, [session_token]] [,format] [,compression_method])

icebergAzure(connection_string|storage_account_url, container_name, blobpath, [,account_name], [,account_key] [,format] [,compression_method])

icebergLocal(path_to_table, [,format] [,compression_method])
GCS 지원

S3 변형 함수는 Google Cloud Storage (GCS)에도 사용할 수 있습니다.

예시:

SELECT
    url,
    count() AS cnt
FROM icebergS3('https://datasets-documentation.s3.amazonaws.com/lake_formats/iceberg/')
GROUP BY url
ORDER BY cnt DESC
LIMIT 5

┌─url────────────────────────────────────────────────┬─────cnt─┐
│ http://liver.ru/belgorod/page/1006.jки/доп_приборы │ 3288173 │ -- 3.29 million
│ http://kinopoisk.ru                                │ 1625250 │ -- 1.63 million
│ http://bdsm_po_yers=0&with_video                   │  791465 │
│ http://video.yandex                                │  582400 │
│ http://smeshariki.ru/region                        │  514984 │
└────────────────────────────────────────────────────┴─────────┘

5 rows in set. Elapsed: 3.375 sec. Processed 100.00 million rows, 9.98 GB (29.63 million rows/s., 2.96 GB/s.)
Peak memory usage: 10.48 GiB.

클러스터 구성 방식

icebergS3Cluster 함수는 ClickHouse 클러스터의 여러 노드에 읽기를 분산합니다. 이니시에이터 노드는 모든 노드에 연결을 설정하고 데이터 파일을 동적으로 배분합니다. 각 워커 노드는 모든 파일이 읽힐 때까지 작업을 요청하고 처리합니다. icebergClustericebergS3Cluster의 별칭입니다. Azure(icebergAzureCluster) 및 HDFS(icebergHDFSCluster)용 변형도 제공됩니다.

예제 구문:

icebergS3Cluster(cluster_name, url [, NOSIGN | access_key_id, secret_access_key, [session_token]] [,format] [,compression_method])
-- icebergCluster is an alias for icebergS3Cluster

icebergAzureCluster(cluster_name, connection_string|storage_account_url, container_name, blobpath, [,account_name], [,account_key] [,format] [,compression_method])

예시 (ClickHouse Cloud):

SELECT
    url,
    count() AS cnt
FROM icebergS3Cluster(
    'default',
    'https://datasets-documentation.s3.amazonaws.com/lake_formats/iceberg/'
)
GROUP BY url
ORDER BY cnt DESC
LIMIT 5

테이블 엔진

모든 쿼리마다 테이블 함수를 사용하는 대신, Iceberg 테이블 엔진을 사용하여 영구 테이블을 생성할 수 있습니다. 데이터는 여전히 객체 스토리지에 저장되며 필요할 때 읽어오므로 ClickHouse로 데이터가 복사되지 않습니다. 테이블 정의가 ClickHouse에 저장되어 각 사용자가 스토리지 경로와 자격 증명을 별도로 지정하지 않아도 사용자 및 세션 간에 공유할 수 있다는 장점이 있습니다. 각 스토리지 백엔드별로 엔진 변형이 제공됩니다: IcebergS3(또는 Iceberg 별칭), IcebergAzure, IcebergHDFS, IcebergLocal.

테이블 엔진과 테이블 함수 모두 S3, AzureBlobStorage, HDFS 스토리지 엔진과 동일한 캐싱 메커니즘을 사용하는 데이터 캐싱을 지원합니다. 또한 메타데이터 캐시는 매니페스트 파일 정보를 메모리에 저장하여 Iceberg 메타데이터를 반복적으로 읽기(reads)하는 횟수를 줄입니다. 이 캐시는 use_iceberg_metadata_files_cache 설정을 통해 기본적으로 활성화됩니다.

예시 구문:

테이블 엔진 IcebergIcebergS3의 별칭(alias)입니다.

CREATE TABLE iceberg_table
    ENGINE = IcebergS3(url [, NOSIGN | access_key_id, secret_access_key, [session_token]] [,format] [,compression_method])

CREATE TABLE iceberg_table
    ENGINE = IcebergAzure(connection_string|storage_account_url, container_name, blobpath, [account_name, account_key, format, compression])

CREATE TABLE iceberg_table
    ENGINE = IcebergLocal(path_to_table, [,format] [,compression_method])
GCS 지원

S3 변형 테이블 엔진은 Google Cloud Storage(GCS)에도 사용할 수 있습니다.

예시:

CREATE TABLE hits_iceberg
    ENGINE = IcebergS3('https://datasets-documentation.s3.amazonaws.com/lake_formats/iceberg/')

SELECT
    url,
    count() AS cnt
FROM hits_iceberg
GROUP BY url
ORDER BY cnt DESC
LIMIT 5

┌─url────────────────────────────────────────────────┬─────cnt─┐
│ http://liver.ru/belgorod/page/1006.jки/доп_приборы │ 3288173 │
│ http://kinopoisk.ru                                │ 1625250 │
│ http://bdsm_po_yers=0&with_video                   │  791465 │
│ http://video.yandex                                │  582400 │
│ http://smeshariki.ru/region                        │  514984 │
└────────────────────────────────────────────────────┴─────────┘

5 rows in set. Elapsed: 2.737 sec. Processed 100.00 million rows, 9.98 GB (36.53 million rows/s., 3.64 GB/s.)
Peak memory usage: 10.53 GiB.

파티션 프루닝(partition pruning), 스키마 진화(schema evolution), 타임 트래블(time travel), 캐싱(caching) 등 지원되는 기능에 대한 자세한 내용은 지원 매트릭스를 참조하십시오. 전체 참조 문서는 iceberg 테이블 함수Iceberg 테이블 엔진 문서를 확인하십시오.