チュートリアルとサンプルデータセット
ClickHouseの使い方を学ぶためのリソースがたくさんあります:
- ClickHouseを立ち上げる必要がある場合は、クイックスタートをチェックしてください
- ClickHouseチュートリアルでは、ニューヨーク市のタクシーのライドデータセットを分析します
さらに、サンプルデータセットはClickHouseを学ぶ素晴らしい体験を提供し、重要なテクニックやコツを学び、ClickHouseの多くの強力な関数を利用する方法を示しています。サンプルデータセットは次のようになります:
ページ | 説明 |
---|---|
ニューヨークタクシーデータ | 2009年以降にニューヨーク市から始まる数十億のタクシーおよび有料車両(Uber、Lyftなど)の旅行データ |
Criteoのテラバイトクリックログ | Criteoからのテラバイトのクリックログ |
WikiStat | 0.5兆レコードを含むWikiStatデータセットを探索します。 |
TPC-DS (2012) | TPC-DSベンチマークデータセットとクエリ。 |
レシピデータセット | 220万のレシピを含むRecipeNLGデータセット |
COVID-19オープンデータ | COVID-19オープンデータは、COVID-19の疫学データと人口統計、経済、政府の対応などの関連要因の大規模でオープンソースのデータベースです |
NOAAの世界歴史気候ネットワーク | 過去120年間の気候データの25億行 |
GitHubイベントデータセット | 2011年から2020年12月6日までのGitHub上のすべてのイベントを含むデータセットで、31億レコードのサイズ。 |
Amazon顧客レビュー | Amazon製品に関する1.5億以上の顧客レビュー |
ブラウン大学ベンチマーク | 機械生成のログデータ用の新しい分析ベンチマーク |
GitHubデータを使用したClickHouseでのクエリ作成 | ClickHouseリポジトリのすべてのコミットと変更を含むデータセット |
ClickHouseを使用したStack Overflowデータの分析 | ClickHouseを使用してStack Overflowデータを分析します |
AMPLabビッグデータベンチマーク | データウェアハウジングソリューションのパフォーマンスを比較するために使用されるベンチマークデータセット。 |
ニューヨーク公共図書館「メニューは何ですか?」データセット | ホテル、レストラン、カフェのメニューに関する1.3百万レコードの歴史的データを含むデータセット |
Laion-400Mデータセット | 英語の画像キャプションを持つ4億の画像を含むデータセット |
スター・スキーマ・ベンチマーク (SSB, 2009) | スター・スキーマ・ベンチマーク(SSB)データセットとクエリ |
英国の不動産価格データセット | 英国の不動産データセットを使用して、頻繁に実行するクエリのパフォーマンスを向上させるためのプロジェクションの使用方法を学びます。このデータセットには、イングランドとウェールズでの不動産の価格に関するデータが含まれています |
Redditコメントデータセット | 2005年12月から2023年3月までのRedditにおける公開コメントを含むデータセットで、JSON形式で140億行以上のデータがあります |
OnTime | 航空便の定刻パフォーマンスを含むデータセット |
台湾の歴史的気象データセット | 過去128年間の気象観測データの1.31億行 |
OpenSky Network 2020からのクラウドソースされた航空交通データ | このデータセットのデータは、COVID-19パンデミック中の航空交通の発展を示すために、完全なOpenSkyデータセットから派生およびクリーニングされています。 |
NYPD苦情データ | タブ区切り値データを5ステップで取り込み、クエリを実行します |
TPC-H (1999) | TPC-Hベンチマークデータセットとクエリ。 |
Foursquareの場所 | 地図上の店、レストラン、公園、遊び場、モニュメントに関する情報を含む1億以上のレコードを持つデータセット。 |
YouTubeの嫌いデータセット | YouTube動画の「嫌い」というコレクション。 |
セルタワーデータセットを使用した地理データ | OpenCelliDデータをClickHouseにロードし、Apache SupersetをClickHouseに接続し、データに基づいたダッシュボードを構築する方法を学びます |
環境センサーのデータ | Sensor.Communityからの200億以上のデータレコード、貢献者駆動のグローバルセンサーネットワークによるオープン環境データを作成します。 |
匿名化されたウェブ分析 | ヒット数と訪問数を含む匿名化されたウェブ分析データを含む2つのテーブルからなるデータセット |