英国の不動産価格データセット
このデータには、イングランドとウェールズにおける不動産の価格が含まれています。データは1995年以降利用可能で、未圧縮の状態でデータセットのサイズは約4 GiB(ClickHouseでは約278 MiBのみを消費します)。
- 出典: https://www.gov.uk/government/statistical-data-sets/price-paid-data-downloads
- フィールドの説明: https://www.gov.uk/guidance/about-the-price-paid-data
- HM土地登記データを含む © Crown copyright and database right 2021。このデータはOpen Government Licence v3.0の下でライセンスされています。
テーブルの作成
データの前処理と挿入
url
関数を使用してデータをClickHouseにストリーミングします。まず、いくつかの受信データを前処理する必要があります。これには以下が含まれます:
postcode
を2つの異なるカラム -postcode1
とpostcode2
に分割します。これはストレージとクエリにとって適していますtime
フィールドを00:00の時間のみを含むため、日付に変換します- 分析に必要ないため、UUid フィールドを無視します
- transform 関数を使用して、
type
とduration
をより読みやすいEnum
フィールドに変換します is_new
フィールドを単一文字列(Y
/N
)から UInt8 フィールドに0または1として変換します- 最後の2つのカラムを削除します。すべて同じ値(0)を持っているためです
url
関数は、ウェブサーバーからデータをClickHouseのテーブルにストリーミングします。以下のコマンドは、uk_price_paid
テーブルに500万行を挿入します:
データの挿入を待ちます。ネットワーク速度によっては、1分か2分かかります。
データの検証
挿入された行数を確認して、うまくいったかどうかを確認しましょう:
このクエリが実行された時点で、データセットには27,450,499行がありました。ClickHouseでのテーブルのストレージサイズを見てみましょう:
テーブルのサイズは221.43 MiBに過ぎないことに注意してください!
クエリを実行する
データを分析するためにいくつかのクエリを実行しましょう:
クエリ1. 年ごとの平均価格
クエリ2. ロンドンにおける年ごとの平均価格
2020年に住宅価格に何かが起こりました!しかし、それは驚きではないでしょう...
クエリ3. 最も高価な地域
プロジェクションを使ったクエリの高速化
プロジェクションを使用することで、これらのクエリを高速化できます。このデータセットの例については、"プロジェクション" を参照してください。
プレイグラウンドで試す
データセットはオンラインプレイグラウンドでも利用可能です。