ブログ

2025年5月ニュースレター

Mark Needham
May 6, 2025 - 3 分で読める

こんにちは、そして2025年5月ClickHouseニュースレターへようこそ!

今月は、ClickHouseがどのように「怠惰」になったのか、Microsoft Clarity分析プラットフォームがClickHouseを選んだ理由、MCP/リアルタイム分析パネル、ClickHouseによる視聴者維持率の指標などについて深く掘り下げます!

今月の注目のコミュニティメンバーは、DeepLのシニアデータプラットフォームエンジニアであるCan Tian氏です。

Can Tian氏は、Python、C++、および最新のインフラストラクチャツールを使用して、スケーラブルなクラウドネイティブデータシステムを構築してきた経験があります。DeepL、FactoryPal、Springer Natureでの経験を通じて、データエンジニアリングから分析、プラットフォーム設計まで幅広く手掛けてきました。

Can氏は、dbt-clickhouseに大きな貢献をしており、増分「マイクロバッチ」戦略のサポートの追加、分散増分モデルのスキーマ変更処理の実装、レプリケートされたデータベースのON CLUSTERステートメントに関連する重要な問題の修正などを行っています。

➡️ LinkedInでCan氏をフォローする

今後のイベント

5月29日にサンフランシスコで開催されるClickHouseユーザーカンファレンス、Open Houseまであと2週間です。素晴らしい講演者のラインナップは増え続けています。

LyftのエンジニアであるJeana Choi氏とRitesh Varyani氏は、ClickHouseをニアリアルタイムおよびサブセカンド分析にどのように使用し、迅速な意思決定を可能にしているかについて説明します。

Open Houseに登録する

グローバルイベント

無料トレーニング

AMERのイベント

EMEAのイベント

APACのイベント

25.4リリース

25.4リリースの私のお気に入りの機能を選ぶのは難しいですが、もし選ばなければならないとしたら、レイジーマテリアライゼーションでしょう。この最適化により、必要な時まで列データの読み取りが遅延され、クエリが大幅に高速化されます。詳細については、次のセクションで説明します!

読み取り専用ディスク上のMergeTreeテーブルは、状態をリフレッシュして新しいデータパーツをロードできるようになり、これにより、ClickHouseネイティブのデータレイクを効果的に作成できます。このリリースには、特定のワークロードに対して同時に実行されるスレッド数を制限できるCPUスロットスケジューリングも含まれています。

最後に、clickhouse-localには、デフォルトデータベースのテーブルが永続化されるという、素晴らしいQoL(Quality of Life)アップデートがあります!

➡️ リリース投稿を読む

ClickHouseがより「怠惰」に(そしてより速く):レイジーマテリアライゼーションの導入

レイジーマテリアライゼーション機能は、Tom Schreiber氏によって徹底的に解説されました。つまり、その仕組みと役立つユースケースを詳細に説明する記事です。

Tom氏は、ClickHouseの既存のI/O効率の構成要素から始め、レイヤーごとに実際のクエリを実行し、レイジーマテリアライゼーションが起動してパフォーマンスを劇的に最適化するまでを説明しています。

➡️ ブログ投稿を読む

Microsoft ClarityがClickHouseを選んだ理由

Microsoft Clarityは、Webサイトやアプリの所有者が、視覚的なスナップショットとユーザーインタラクションデータを通じてユーザーの行動を理解するのに役立つ無料の分析ツールです。ヒートマップ、セッションレコーディング、インサイトを提供します。

MicrosoftがClarityを無料の公共サービスとして提供することを決定した際、インフラストラクチャを刷新する必要がありました。ElasticsearchとSparkを使用した元の概念実証では、数百万のプロジェクトと数千兆のイベントという予想される規模に対応できませんでした。システムは遅く、取り込みスループットが低く、大規模になると非常に高価になる可能性がありました。

彼らはClickHouseをソリューションとして採用し、ブログでは、その選択の理由、解決に役立った問題、そして途中で遭遇した課題について説明しています。

➡️ ブログ投稿を読む

AgentHouseの紹介

Dmitry Pavlov氏は、Claude Sonnet大規模言語モデルを使用してClickHouseデータセットと対話できるチャットベースのデモ環境であるAgentHouseを発表しました。

内部的にはLibreChatを使用しており、質問に対するテキスト回答だけでなく、インタラクティブなグラフも取得できます。

➡️ ブログ投稿を読む

UUIDレンジバケットによる10億行のClickHouseインサートの処理方法

CloudQueryは、1回の操作で2500万件を超える大量のデータをClickHouseに取り込む際に課題に直面しました。これらの大規模なインサートは、ClickHouseがディスクに書き出す前にデータセット全体をメモリに実体化するため、メモリ不足のエラーを引き起こしました。

この問題を解決するために、彼らはUUID範囲に基づいて大きなインサートをより小さく管理しやすいチャンクに分割する「Insert-Splitter」アルゴリズムを開発しました。このアプローチは、ClickHouseのUUIDソートの動作のため、慎重な実装が必要でした。

しかし、うまくいきました!2600万行の単一のインサートを4つのバランスの取れたバケットに分割することで、処理速度を犠牲にすることなく、ピーク時のメモリ使用量を75%削減できました。

➡️ ブログ投稿を読む

ClickPipesのMySQL CDCコネクタがプライベートプレビューで利用可能に

最近、ClickPipesにおけるMySQL Change Data Capture(CDC)コネクタのプライベートプレビューを発表しました。

これにより、顧客は数回クリックするだけでMySQLデータベースをClickHouse Cloudにレプリケートし、ClickHouseの驚異的な高速分析を活用できます。MySQLの実行場所に関係なく、継続的なレプリケーションとMySQLからの1回限りの移行の両方に対応します。

➡️ ブログ投稿を読む

ClickHouseによるブートストラップ

AB TastyのWilliam Attache氏は、ブートストラップデータを使用する一部の統計アルゴリズムをClickHouse SQLで直接実装することで高速化したいと考えました。

このブログでは、ClickHouseのネイティブ関数を使用した彼の試行錯誤のプロセスを紹介し、最初の乱数戦略が失敗した理由と、最終的にSQLベースの回避策とPythonユーザー定義関数を使用して問題を解決した方法を説明しています。

➡️ ブログ投稿を読む

Vimeo:大規模な視聴者維持率分析の裏側

動画クリエイターとして、この記事は非常に興味深いものでした。視聴回数は基本的なフィードバックを提供しますが、視聴者維持率(各瞬間で視聴を続けている視聴者の割合)を理解することで、コンテンツのパフォーマンスに関するより深い洞察が得られます。

Vimeoのブログ投稿では、ClickHouseを使用して高度な維持率分析システムをどのように構築したかが明らかにされています。絶対的な視聴回数を保存するのではなく、視聴パターンを変化(視聴者がセグメントの視聴を開始したときに+1、停止したときに-1)として記録し、ウィンドウ関数を使用して毎秒の累積視聴回数を計算しています。

また、AIを活用したインサイトレイヤーも構築しており、AIのコンテキストウィンドウが過負荷になるのを防ぐために、ウィンドウ平均とランレングスエンコーディングを通じて維持率データを事前処理しています。注意深く作成されたプロンプトエンジニアリングと組み合わせることで、視聴者のエンゲージメントパターンに関する簡潔で実用的なインサイトを生成できます。

➡️ ブログ投稿を読む

ビデオコーナー

➡️ <a href="https://medium.com/the-ab-tasty-tech-

この投稿を共有する

Subscribe to our newsletter

Stay informed on feature releases, product roadmap, support, and cloud offerings!
Loading form...
Follow us
X imageBluesky imageSlack image
GitHub imageTelegram imageMeetup image
Rss image
© 2025 ClickHouse, Inc. 本社はカリフォルニア州ベイエリアとオランダ領アムステルダムにあります。