匿名化されたウェブ分析データ
このデータセットは、ヒット(hits_v1
)と訪問(visits_v1
)の匿名化されたウェブ分析データを含む2つのテーブルで構成されています。
テーブルは圧縮された tsv.xz
ファイルとしてダウンロードできます。この文書で扱ったサンプルに加えて、1億行を含む hits
テーブルの拡張版(7.5GB)がTSV形式でhttps://datasets.clickhouse.com/hits/tsv/hits_100m_obfuscated_v1.tsv.xzから利用可能です。
データのダウンロードと取り込み
ヒットの圧縮TSVファイルをダウンロードする:
データベースとテーブルを作成する
hits_v1のために
または hits_100m_obfuscated の場合
ヒットデータを取り込む:
行数を検証します
訪問の圧縮TSVファイルをダウンロードする:
訪問テーブルを作成する
訪問データを取り込む
数を検証します
例としてのJOIN
ヒットと訪問のデータセットはClickHouseのテストルーチンで使用されており、これはテストスイートのクエリの一部です。残りのテストはこのページの最後にある「次のステップ」セクションで参照されています。
次のステップ
ClickHouseにおけるスパース主インデックスの実用的な導入ガイドでは、ヒットデータセットを使用して、ClickHouseのインデックスと従来のリレーショナルデータベースの違い、ClickHouseによるスパース主インデックスの構築と利用方法、インデックスのベストプラクティスについて説明しています。
これらのテーブルに対するクエリの追加例は、ClickHouseのステートフルテストの中に見られます。
注記
テストスイートではデータベース名 test
が使用され、テーブル名は hits
と visits
です。データベースやテーブルの名前を変更したり、テストファイルのSQLを編集することができます。