こんにちは、そして2025年5月ClickHouseニュースレターへようこそ!
今月は、ClickHouseがどのように「怠惰」になったのか、Microsoft Clarity分析プラットフォームがClickHouseを選んだ理由、MCP/リアルタイム分析パネル、ClickHouseによる視聴者維持率の指標などについて深く掘り下げます!
注目のコミュニティメンバー:Can Tian
今月の注目のコミュニティメンバーは、DeepLのシニアデータプラットフォームエンジニアであるCan Tian氏です。
Can Tian氏は、Python、C++、および最新のインフラストラクチャツールを使用して、スケーラブルなクラウドネイティブデータシステムを構築してきた経験があります。DeepL、FactoryPal、Springer Natureでの経験を通じて、データエンジニアリングから分析、プラットフォーム設計まで幅広く手掛けてきました。
Can氏は、dbt-clickhouseに大きな貢献をしており、増分「マイクロバッチ」戦略のサポートの追加、分散増分モデルのスキーマ変更処理の実装、レプリケートされたデータベースのON CLUSTER
ステートメントに関連する重要な問題の修正などを行っています。
今後のイベント
5月29日にサンフランシスコで開催されるClickHouseユーザーカンファレンス、Open Houseまであと2週間です。素晴らしい講演者のラインナップは増え続けています。
LyftのエンジニアであるJeana Choi氏とRitesh Varyani氏は、ClickHouseをニアリアルタイムおよびサブセカンド分析にどのように使用し、迅速な意思決定を可能にしているかについて説明します。
グローバルイベント
- v25.5コミュニティコール - 5月22日
無料トレーニング
- ClickHouse FastTrackトレーニング - アムステルダム - 5月12日
- ClickHouse Observabilityトレーニング - アムステルダム - 5月13日
- ClickHouse Fundamentalsトレーニング - バーチャル - 5月14日
- ClickHouse Developer FastTrackトレーニング - ミュンヘン - 5月14日
- ClickHouse Developerトレーニング - バーチャル - 5月21日
- ClickHouse Fundamentals - バーチャル - 5月20日、5月22日、6月11日
- ClickHouse Developerトレーニング - バーチャル - 5月21日~22日
- 対面ClickHouseクエリ最適化ワークショップ - サンフランシスコ - 5月28日
- 対面ClickHouse Developer終日トレーニング - サンフランシスコ - 5月28日
- ClickHouseとのデータレイク統合 - バーチャル - 6月5日
AMERのイベント
- オースティンClickHouse Meetup - 5月13日
- Microsoft Build - シアトル - 5月19日~21日
- シアトルClickHouse Meetup - 5月20日
- AWS Summit Washington D.C. - 6月10日~11日
- ワシントンD.C. ClickHouse Meetup - 6月12日
- Confluent Financial Services Leaders Summit、ニューヨーク - 6月10日
- アトランタClickHouse Meetup - 7月8日
- ニューヨークClickHouse Meetup - 7月15日
- AWS Summitトロント - 9月4日
- AWS Summitロサンゼルス - 9月17日
EMEAのイベント
- ミュンヘンハッピーアワー - 5月14日
- AWS Summitドバイ - 5月21日
- AWS Summitテルアビブ - 5月28日
- AWS Summitストックホルム - 6月4日
- AWS Summitハンブルク - 6月5日
- AWS Summitマドリード - 6月11日
- Tech BBQコペンハーゲン - 8月27日~28日
- AWS Summitチューリッヒ - 9月11日
- BigData London - 9月24日~25日
- PyDataアムステルダム - 9月24日~25日
APACのイベント
- DevOpsDaysシンガポール - 5月15日
- Data Engineering Summit、ベンガルール - 5月15日~16日
- 深センClickHouse Meetup - 5月17日
- AWS Summitシンガポール - 5月29日
- AWS Summitシドニー - 6月4日~5日
- 東京Meetup - AI Night! - 6月5日
- KubeCon + CloudNativeCon Japan - 6月16日~17日
- AWS Summit Japan - 6月25日~26日
25.4リリース
25.4リリースの私のお気に入りの機能を選ぶのは難しいですが、もし選ばなければならないとしたら、レイジーマテリアライゼーションでしょう。この最適化により、必要な時まで列データの読み取りが遅延され、クエリが大幅に高速化されます。詳細については、次のセクションで説明します!
読み取り専用ディスク上のMergeTreeテーブルは、状態をリフレッシュして新しいデータパーツをロードできるようになり、これにより、ClickHouseネイティブのデータレイクを効果的に作成できます。このリリースには、特定のワークロードに対して同時に実行されるスレッド数を制限できるCPUスロットスケジューリングも含まれています。
最後に、clickhouse-localには、デフォルトデータベースのテーブルが永続化されるという、素晴らしいQoL(Quality of Life)アップデートがあります!
➡️ リリース投稿を読む
ClickHouseがより「怠惰」に(そしてより速く):レイジーマテリアライゼーションの導入
レイジーマテリアライゼーション機能は、Tom Schreiber氏によって徹底的に解説されました。つまり、その仕組みと役立つユースケースを詳細に説明する記事です。
Tom氏は、ClickHouseの既存のI/O効率の構成要素から始め、レイヤーごとに実際のクエリを実行し、レイジーマテリアライゼーションが起動してパフォーマンスを劇的に最適化するまでを説明しています。
➡️ ブログ投稿を読む
Microsoft ClarityがClickHouseを選んだ理由
Microsoft Clarityは、Webサイトやアプリの所有者が、視覚的なスナップショットとユーザーインタラクションデータを通じてユーザーの行動を理解するのに役立つ無料の分析ツールです。ヒートマップ、セッションレコーディング、インサイトを提供します。
MicrosoftがClarityを無料の公共サービスとして提供することを決定した際、インフラストラクチャを刷新する必要がありました。ElasticsearchとSparkを使用した元の概念実証では、数百万のプロジェクトと数千兆のイベントという予想される規模に対応できませんでした。システムは遅く、取り込みスループットが低く、大規模になると非常に高価になる可能性がありました。
彼らはClickHouseをソリューションとして採用し、ブログでは、その選択の理由、解決に役立った問題、そして途中で遭遇した課題について説明しています。
➡️ ブログ投稿を読む
AgentHouseの紹介
Dmitry Pavlov氏は、Claude Sonnet大規模言語モデルを使用してClickHouseデータセットと対話できるチャットベースのデモ環境であるAgentHouseを発表しました。
内部的にはLibreChatを使用しており、質問に対するテキスト回答だけでなく、インタラクティブなグラフも取得できます。
➡️ ブログ投稿を読む
UUIDレンジバケットによる10億行のClickHouseインサートの処理方法
CloudQueryは、1回の操作で2500万件を超える大量のデータをClickHouseに取り込む際に課題に直面しました。これらの大規模なインサートは、ClickHouseがディスクに書き出す前にデータセット全体をメモリに実体化するため、メモリ不足のエラーを引き起こしました。
この問題を解決するために、彼らはUUID範囲に基づいて大きなインサートをより小さく管理しやすいチャンクに分割する「Insert-Splitter」アルゴリズムを開発しました。このアプローチは、ClickHouseのUUIDソートの動作のため、慎重な実装が必要でした。
しかし、うまくいきました!2600万行の単一のインサートを4つのバランスの取れたバケットに分割することで、処理速度を犠牲にすることなく、ピーク時のメモリ使用量を75%削減できました。
➡️ ブログ投稿を読む
ClickPipesのMySQL CDCコネクタがプライベートプレビューで利用可能に
最近、ClickPipesにおけるMySQL Change Data Capture(CDC)コネクタのプライベートプレビューを発表しました。
これにより、顧客は数回クリックするだけでMySQLデータベースをClickHouse Cloudにレプリケートし、ClickHouseの驚異的な高速分析を活用できます。MySQLの実行場所に関係なく、継続的なレプリケーションとMySQLからの1回限りの移行の両方に対応します。
➡️ ブログ投稿を読む
ClickHouseによるブートストラップ
AB TastyのWilliam Attache氏は、ブートストラップデータを使用する一部の統計アルゴリズムをClickHouse SQLで直接実装することで高速化したいと考えました。
このブログでは、ClickHouseのネイティブ関数を使用した彼の試行錯誤のプロセスを紹介し、最初の乱数戦略が失敗した理由と、最終的にSQLベースの回避策とPythonユーザー定義関数を使用して問題を解決した方法を説明しています。
➡️ ブログ投稿を読む
Vimeo:大規模な視聴者維持率分析の裏側
動画クリエイターとして、この記事は非常に興味深いものでした。視聴回数は基本的なフィードバックを提供しますが、視聴者維持率(各瞬間で視聴を続けている視聴者の割合)を理解することで、コンテンツのパフォーマンスに関するより深い洞察が得られます。
Vimeoのブログ投稿では、ClickHouseを使用して高度な維持率分析システムをどのように構築したかが明らかにされています。絶対的な視聴回数を保存するのではなく、視聴パターンを変化(視聴者がセグメントの視聴を開始したときに+1、停止したときに-1)として記録し、ウィンドウ関数を使用して毎秒の累積視聴回数を計算しています。
また、AIを活用したインサイトレイヤーも構築しており、AIのコンテキストウィンドウが過負荷になるのを防ぐために、ウィンドウ平均とランレングスエンコーディングを通じて維持率データを事前処理しています。注意深く作成されたプロンプトエンジニアリングと組み合わせることで、視聴者のエンゲージメントパターンに関する簡潔で実用的なインサイトを生成できます。
➡️ ブログ投稿を読む
ビデオコーナー
- スケールアウト配信プラットフォームであるBuildkiteのスタッフエンジニア、Gordon Chan氏が、テスト分析へのClickHouse採用の道のりを共有しました。
- Last9の開発者エバンジェリストであるPrathamesh Sonpatki氏が、内部でClickHouseを使用するオブザーバビリティプラットフォームの構築から得られたオブザーバビリティの課題とソリューションに関する洞察を共有しました。
- Ryadh Dahimene氏が、さまざまな企業の専門家を招き、リアルタイム分析の交差点におけるモデルコンテキストプロトコル(MCP)に関するパネルディスカッションを主催しました。参加者には、Anthropic、ClickHouse、RunReveal、Five One、A16Zの代表者が含まれていました。
- 既存のテーブルでマテリアライズドビューをバックフィルする方法を示すビデオを作成しました。
- また、AWS Glueカタログを介してApache Icebergテーブルをクエリする方法も紹介しました。
- 最後に、ClickHouseのJSONデータ型を説明する短いビデオがあります。
➡️ <a href="https://medium.com/the-ab-tasty-tech-