チュートリアルとサンプルデータセット
ClickHouseを始め、どのように機能するかを学ぶためのリソースがたくさんあります:
- ClickHouseを立ち上げる必要がある場合は、私たちのクイックスタートをチェックしてください。
- ClickHouseチュートリアルでは、ニューヨーク市のタクシーライドのデータセットを分析します。
さらに、サンプルデータセットはClickHouseを使いこなす素晴らしい体験を提供し、重要なテクニックやコツを学び、ClickHouseの多くの強力な機能を活用する方法を示します。サンプルデータセットには以下が含まれます:
ページ | 説明 |
---|---|
ニューヨークタクシーデータ | 2009年以降にニューヨーク市を発着するタクシーおよびハイヤー車両(Uber、Lyftなど)の億単位のデータ |
Criteoのテラバイトのクリックログ | Criteoからの1テラバイトのクリックログ |
WikiStat | 0.5兆件のレコードを含むWikiStatデータセットを探ります。 |
TPC-DS (2012) | TPC-DSベンチマークデータセットとクエリ。 |
レシピデータセット | 220万件のレシピを含むRecipeNLGデータセット |
COVID-19オープンデータ | COVID-19オープンデータは、COVID-19に関する疫学データと、人口統計、経済、政府の対応などに関する関連要因の大規模でオープンソースのデータベースです。 |
NOAAグローバル歴史気候ネットワーク | 過去120年間の気候データの25億行 |
GitHubイベントデータセット | 2011年から2020年12月6日までのGitHub上のすべてのイベントを含むデータセット。サイズは31億件のレコード。 |
Amazon顧客レビュー | Amazon製品の1億5000万件以上の顧客レビュー |
ブラウン大学ベンチマーク | 機械生成されたログデータのための新しい分析ベンチマーク |
GitHubデータを使用したClickHouseでのクエリ作成 | ClickHouseリポジトリのすべてのコミットと変更を含むデータセット |
ClickHouseを使用したStack Overflowデータの分析 | ClickHouseによるStack Overflowデータの分析 |
AMPLabビッグデータベンチマーク | データウェアハウジングソリューションのパフォーマンスを比較するために使用されるベンチマークデータセット。 |
ニューヨーク公共図書館「メニューに何がある?」データセット | ホテル、レストラン、カフェのメニューに関する歴史データの130万件のレコードを含むデータセット。 |
Laion-400Mデータセット | 英語の画像キャプションを持つ4億枚の画像を含むデータセット |
スター・スキーマ・ベンチマーク (SSB, 2009) | スター・スキーマ・ベンチマーク(SSB)データセットとクエリ |
イギリス不動産価格データセット | 英国とウェールズの不動産価格データセットを使用して、頻繁に実行するクエリのパフォーマンスを向上させるためにプロジェクションを使用する方法を学ぶ |
Redditコメントデータセット | 2005年12月から2023年3月までのReddit上の公開コメントを含む、JSON形式で140億行以上のデータを含むデータセット |
OnTime | 航空便のオンタイムパフォーマンスを含むデータセット |
台湾の歴史的気象データセット | 過去128年間の気象観測データの1.31億行 |
The OpenSky Network 2020からのクラウドソーシングされた航空交通データ | このデータセットのデータは、COVID-19パンデミック中の航空交通の発展を示すために、完全なOpenSkyデータセットから派生およびクリーンされたものです。 |
NYPD苦情データ | タブ区切り値データを5つのステップで取り込んでクエリします |
TPC-H (1999) | TPC-Hベンチマークデータセットとクエリ。 |
YouTubeの低評価データセット | YouTube動画の低評価コレクション。 |
セルタワーデータセットを使用した地理データ | OpenCelliDデータをClickHouseにロードし、Apache SupersetをClickHouseに接続してデータに基づくダッシュボードを構築する方法を学ぶ |
環境センサーのデータ | Sensor.Communityからの200億件以上のレコードデータ、これは貢献者主導のグローバルセンサーネットワークによって生成されたオープン環境データです。 |
匿名化されたウェブ分析 | ヒットと訪問を含む匿名化されたウェブ分析データを持つ2つのテーブルからなるデータセット |