GitHubデータを使用したClickHouseでのクエリの作成

このデータセットには、ClickHouseリポジトリのすべてのコミットと変更が含まれています。これは、ClickHouseに付属しているネイティブな git-import ツールを使用して生成できます。

生成されたデータは、次の各テーブルのために tsv ファイルを提供します：

commits - 統計を含むコミット。
file_changes - 各コミットで変更されたファイルの情報と統計。
line_changes - 各コミットで変更されたファイルの中の各変更行のフル情報と、この行の前の変更に関する情報。

2022年11月8日現在、各TSVのサイズと行数はおおよそ以下の通りです：

commits - 7.8M - 266,051行
file_changes - 53M - 266,051行
line_changes - 2.7G - 7,535,157行

データ生成

これは任意です。我々はデータを自由に配布しています - 詳細はデータのダウンロードと挿入を参照してください。

git clone [email protected]:ClickHouse/ClickHouse.git
cd ClickHouse
clickhouse git-import --skip-paths 'generated\.cpp|^(contrib|docs?|website|libs/(libcityhash|liblz4|libdivide|libvectorclass|libdouble-conversion|libcpuid|libzstd|libfarmhash|libmetrohash|libpoco|libwidechar_width))/' --skip-commits-with-messages '^Merge branch '

これは、ClickHouseリポジトリのために、約3分（2022年11月8日現在、MacBook Pro 2021で）で完了します。

利用可能なオプションの完全なリストは、ツールのネイティブヘルプから取得できます。

clickhouse git-import -h

このヘルプには、上記の各テーブルのDDLも提供されています。例えば、

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

これらのクエリは、任意のリポジトリで機能するはずです。自由に探索し、発見を報告してください 2022年11月時点の実行時間に関するガイドライン：

Linux - ~/clickhouse git-import - 160分

データのダウンロードと挿入

以下のデータを使用して、作業環境を再現できます。あるいは、このデータセットは play.clickhouse.com で利用可能です - 詳細についてはクエリを参照してください。

以下のリポジトリのために生成されたファイルは次の通りです：

ClickHouse (2022年11月8日)
Linux (2022年11月8日)

このデータを挿入するには、以下のクエリを実行してデータベースを準備します：

DROP DATABASE IF EXISTS git;
CREATE DATABASE git;

CREATE TABLE git.commits
(
    hash String,
    author LowCardinality(String),
    time DateTime,
    message String,
    files_added UInt32,
    files_deleted UInt32,
    files_renamed UInt32,
    files_modified UInt32,
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.file_changes
(
    change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    lines_added UInt32,
    lines_deleted UInt32,
    hunks_added UInt32,
    hunks_removed UInt32,
    hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

CREATE TABLE git.line_changes
(
    sign Int8,
    line_number_old UInt32,
    line_number_new UInt32,
    hunk_num UInt32,
    hunk_start_line_number_old UInt32,
    hunk_start_line_number_new UInt32,
    hunk_lines_added UInt32,
    hunk_lines_deleted UInt32,
    hunk_context LowCardinality(String),
    line LowCardinality(String),
    indent UInt8,
    line_type Enum('Empty' = 0, 'Comment' = 1, 'Punct' = 2, 'Code' = 3),

    prev_commit_hash String,
    prev_author LowCardinality(String),
    prev_time DateTime,

    file_change_type Enum('Add' = 1, 'Delete' = 2, 'Modify' = 3, 'Rename' = 4, 'Copy' = 5, 'Type' = 6),
    path LowCardinality(String),
    old_path LowCardinality(String),
    file_extension LowCardinality(String),
    file_lines_added UInt32,
    file_lines_deleted UInt32,
    file_hunks_added UInt32,
    file_hunks_removed UInt32,
    file_hunks_changed UInt32,

    commit_hash String,
    author LowCardinality(String),
    time DateTime,
    commit_message String,
    commit_files_added UInt32,
    commit_files_deleted UInt32,
    commit_files_renamed UInt32,
    commit_files_modified UInt32,
    commit_lines_added UInt32,
    commit_lines_deleted UInt32,
    commit_hunks_added UInt32,
    commit_hunks_removed UInt32,
    commit_hunks_changed UInt32
) ENGINE = MergeTree ORDER BY time;

データを INSERT INTO SELECT と s3 関数を使用して挿入します。例えば、以下では、ClickHouseのファイルをそれぞれのテーブルに挿入します：

commits

INSERT INTO git.commits SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/commits.tsv.xz', 'TSV', 'hash String,author LowCardinality(String), time DateTime, message String, files_added UInt32, files_deleted UInt32, files_renamed UInt32, files_modified UInt32, lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32')

0 rows in set. Elapsed: 1.826 sec. Processed 62.78 thousand rows, 8.50 MB (34.39 thousand rows/s., 4.66 MB/s.)

file_changes

INSERT INTO git.file_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/file_changes.tsv.xz', 'TSV', 'change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6), path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), lines_added UInt32, lines_deleted UInt32, hunks_added UInt32, hunks_removed UInt32, hunks_changed UInt32, commit_hash String, author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 2.688 sec. Processed 266.05 thousand rows, 48.30 MB (98.97 thousand rows/s., 17.97 MB/s.)

line_changes

INSERT INTO git.line_changes SELECT *
FROM s3('https://datasets-documentation.s3.amazonaws.com/github/commits/clickhouse/line_changes.tsv.xz', 'TSV', '    sign Int8, line_number_old UInt32, line_number_new UInt32, hunk_num UInt32, hunk_start_line_number_old UInt32, hunk_start_line_number_new UInt32, hunk_lines_added UInt32,\n    hunk_lines_deleted UInt32, hunk_context LowCardinality(String), line LowCardinality(String), indent UInt8, line_type Enum(\'Empty\' = 0, \'Comment\' = 1, \'Punct\' = 2, \'Code\' = 3), prev_commit_hash String, prev_author LowCardinality(String), prev_time DateTime, file_change_type Enum(\'Add\' = 1, \'Delete\' = 2, \'Modify\' = 3, \'Rename\' = 4, \'Copy\' = 5, \'Type\' = 6),\n    path LowCardinality(String), old_path LowCardinality(String), file_extension LowCardinality(String), file_lines_added UInt32, file_lines_deleted UInt32, file_hunks_added UInt32, file_hunks_removed UInt32, file_hunks_changed UInt32, commit_hash String,\n    author LowCardinality(String), time DateTime, commit_message String, commit_files_added UInt32, commit_files_deleted UInt32, commit_files_renamed UInt32, commit_files_modified UInt32, commit_lines_added UInt32, commit_lines_deleted UInt32, commit_hunks_added UInt32, commit_hunks_removed UInt32, commit_hunks_changed UInt32')

0 rows in set. Elapsed: 50.535 sec. Processed 7.54 million rows, 2.09 GB (149.11 thousand rows/s., 41.40 MB/s.)

クエリ

ツールはヘルプ出力を介していくつかのクエリを提案します。これに加えて、いくつかの追加的な興味のある質問に対する回答も提供しました。これらのクエリは、ツールの任意の順序に対しておおよそ増加する複雑さです。

このデータセットは、git_clickhouse データベースの play.clickhouse.com で利用可能です。すべてのクエリに対するこの環境へのリンクを提供し、データベース名を必要に応じて調整します。データ収集の時期によって、playの結果はここに示されたものと異なる場合があることに注意してください。

単一ファイルの履歴

最も単純なクエリです。ここでは StorageReplicatedMergeTree.cpp に対するすべてのコミットメッセージを見ていきます。これらはおそらくより興味深いものなので、最新のメッセージから順に並べます。

データ生成​

データのダウンロードと挿入​

クエリ​

単一ファイルの履歴​

現在のアクティブファイルを見つける​

最も修正されたファイルのリスト​

コミットが通常発生する曜日は何か？​

サブディレクトリ/ファイルの履歴 - 行数、コミット数、時間の経過に及ぼす貢献者の数​

最大の著者数のファイルのリスト​

リポジトリ内の最古のコード行​

最も長い履歴のファイル​

ドキュメントとコードに関する貢献者の分布​

最も多様な影響を持つ著者​

特定の著者の好きなファイル​

最も大きいファイルと最少の著者の数​

時間帯別のコミットとコード行の分布; 曜日別、著者別; 特定のサブディレクトリについて​

他の著者のコードを書き直す傾向がある著者のマトリックス​

曜日別で最も高い割合の寄稿者は誰か​

リポジトリ全体のコード年齢の分布​

ある著者のコードの何パーセントが他の著者によって削除されたか​

最も書き直されたファイルのリスト​

コードがリポジトリに残る確率が最も高い曜日は？​

平均コード年齢別にソートされたファイル​

誰がもっともテスト/CPPコード/コメントを書く傾向があるか​

著者のコミットはどのように時間経過とともにコード/コメントの割合に対して変化するか​

コードが書き直されるまでの平均時間と中央値（コードの劣化の半減期）​

コードの書き直しのチャンスが最も高い時間は？​

どの著者のコードが最も「スティッキー」か​

著者による連続コミット日数​

ファイルの行単位のコミット履歴​

解決されていない質問​

Git blame​

データ生成

データのダウンロードと挿入

クエリ

単一ファイルの履歴

現在のアクティブファイルを見つける

最も修正されたファイルのリスト

コミットが通常発生する曜日は何か？

サブディレクトリ/ファイルの履歴 - 行数、コミット数、時間の経過に及ぼす貢献者の数

最大の著者数のファイルのリスト

リポジトリ内の最古のコード行

最も長い履歴のファイル

ドキュメントとコードに関する貢献者の分布

最も多様な影響を持つ著者

特定の著者の好きなファイル

最も大きいファイルと最少の著者の数

時間帯別のコミットとコード行の分布; 曜日別、著者別; 特定のサブディレクトリについて

他の著者のコードを書き直す傾向がある著者のマトリックス

曜日別で最も高い割合の寄稿者は誰か

リポジトリ全体のコード年齢の分布

ある著者のコードの何パーセントが他の著者によって削除されたか

最も書き直されたファイルのリスト

コードがリポジトリに残る確率が最も高い曜日は？

平均コード年齢別にソートされたファイル

誰がもっともテスト/CPPコード/コメントを書く傾向があるか

著者のコミットはどのように時間経過とともにコード/コメントの割合に対して変化するか

コードが書き直されるまでの平均時間と中央値（コードの劣化の半減期）

コードの書き直しのチャンスが最も高い時間は？

どの著者のコードが最も「スティッキー」か

著者による連続コミット日数

ファイルの行単位のコミット履歴

解決されていない質問

Git blame