2025年最初のClickHouseニュースレターへようこそ。今月は、24.12リリースにおけるApache Iceberg RESTカタログとスキーマ進化についてご紹介します。プロダクト分析ソリューションの構築方法や、ClickHouseを使用したメダリオンアーキテクチャの実装方法を学びます。また、The All Things Open Conferenceからのビデオもあります!
この号の内容
- 注目のコミュニティメンバー
- 今後のイベント
- 24.12 リリース
- ClickHouseを使用したプロダクト分析ソリューションの構築
- パーティション化されたテーブルへのバルクインサートの最適化
- ゼロからスケールへ:Langfuseのインフラストラクチャ進化
- ClickHouseを使用したメダリオンアーキテクチャの構築
- Blueskyデータのためのメダリオンアーキテクチャの構築
- クイックリード
- ビデオコーナー
- 今月の投稿
注目のコミュニティメンバー
今月の注目のコミュニティメンバーは、コミュニティプラットフォームであるSkoolのデータ責任者、Jason Andersonです。
Jason Andersonは、チームを率い、データ駆動型のソリューションを開発してきた経験豊富なデータおよびテクノロジーの専門家です。以前はMythical Gamesのデータ責任者、Comp Threeのパートナーを務め、機械学習、分析、クラウドアーキテクチャに注力していました。彼のキャリアには、IBMやPolySatでの役割も含まれており、クラウドサービスや衛星ソフトウェア開発に貢献しました。
Jasonは最近、ロサンゼルスのClickHouseミートアップでSkoolでの彼の仕事について発表しました。Jasonは、1日に1億行以上のデータを処理しながら、非常に高速なクエリを実現するために、PostgresからClickHouseに移行した経緯を説明しました。また、SkoolでのClickHouseの利用についてより詳細に説明したブログ記事もあります。
今後のイベント
グローバルイベント
- リリースコール 25.1 - 1月28日
無料トレーニング
- ClickHouseクエリ最適化ワークショップ - 1月22日
- ClickHouseを可観測性に活用する - 1月29日
- ClickHouseデベロッパー対面トレーニング - ロンドン、イングランド - 2月4-5日
- 対面ClickHouseトレーニング - 2月10日
- ClickHouseクエリ最適化ワークショップ (APJ向け時間帯) - 2月12日
EMEAのイベント
- ロンドンでのミートアップ - 2月5日
- ドバイでのミートアップ - 2月10日
APACのイベント
- Alibaba Developer Summit Jakarta - 1月21日
- 東京でのミートアップ - 1月23日
- ムンバイでのミートアップ - 2月1日
- バンガロールでのミートアップ - 2月8日
- Developers Summit Tokyo - 2月13-14日
24.12 リリース
2024年の最終リリースでは、Iceberg RESTカタログとスキーマ進化のサポートが導入されました。Apache Icebergの共同作成者であるDaniel Weeksが24.12コミュニティコールにゲスト出演しましたので、録画をぜひご覧ください。
Enumの使いやすさの改善、テーブルを列で逆順にソートする実験的な機能、テーブルの主キーとしてのJSONサブカラム、自動JOINの並べ替え、JOIN式の最適化なども含まれています!
ClickHouseを使用したプロダクト分析ソリューションの構築
プロダクト分析とは、ユーザーが製品をどのように操作するかに関するデータを収集、分析、解釈することです。
Chloé CarassoはClickHouseのプロダクト分析を主導しており、社内プロダクト分析プラットフォームの構築方法についてブログ記事を執筆しました。
Chloeは、既製のソリューションを購入するのではなく、なぜ自分たちで構築することにしたのかを説明し、この道に興味がある場合に、ClickHouseを活用した分析ソリューションの設計と運用に関するいくつかのアイデアを共有しています。また、コホート分析、ユーザーパス、リテンション/チャーンの測定など、彼女が実行する一般的なクエリも共有しています。
パーティション化されたテーブルへのバルクインサートの最適化
Triple WhaleのソフトウェアエンジニアであるJesse Grodmanが、高度にパーティション化されたClickHouseテーブルにデータを高速にロードするためのヒントをいくつか共有しています。
S3ファイルからテーブルに直接データを書き込み始めましたが、その結果、多くの小さなpartsが発生し、クエリの観点からは理想的ではなく、too many partsエラーが発生する可能性があります。彼は、取り込みクエリの一部としてパーティションキーでデータをソートするなど、この問題を回避するためのさまざまな方法を検討していますが、メモリ不足エラーが発生します。
Jesseは、ClickHouseに書き込む前にパーティションキーでデータをソートする方がはるかに効果的であることを発見しました。彼はまた、最初にデータを非パーティション化されたテーブルにロードし、その後ClickHouseでソートを実行しながらパーティション化されたテーブルにデータを投入することも試しています。
ゼロからスケールへ:Langfuseのインフラストラクチャ進化
Langfuseは、Y Combinator Winter 2023バッチに参加したオープンソースのLLM可観測性プラットフォームです。製品の最初のリリースは、Next.js、Vercel、Postgresで記述されました。これにより、迅速なリリースが可能になりましたが、システムをスケールしようとしたときに問題が発生しました。
ブログ記事では、これらの問題を解決するための彼らの道のりを説明しており、それには広範なインフラストラクチャの再設計が含まれていました。スパイキーな取り込みトラフィックを処理するためにRedisキューが導入され、ClickHouse ReplacingMergeTreeテーブルの助けを借りて分析クエリが高速化されました。
ClickHouseを使用したメダリオンアーキテクチャの構築
メダリオンアーキテクチャは、データレイクハウス内のデータを論理的に整理するデータ設計パターンです。アーキテクチャの各レイヤー(ブロンズ ⇒ シルバー ⇒ ゴールドレイヤーテーブル)をデータが流れるにつれて、データの構造と品質を段階的かつ漸進的に向上させることを目的としています。
ClickHouseプロダクトマーケティングエンジニアリング(PME)チームは、このアーキテクチャがClickHouseのようなリアルタイムデータウェアハウスに適用できるかどうかに関心を持ち、彼らの経験を説明するブログ記事を執筆しました。
Blueskyデータのためのメダリオンアーキテクチャの構築
メダリオンアーキテクチャの紹介記事に続いて、ClickHouse PMEチームはこの設計パターンをBlueSkyソーシャルネットワークからのデータに適用しました。
多くのレコードに不正な形式または誤ったタイムスタンプが含まれていたため、これはこの実験に最適なデータセットでした。データセットには頻繁な重複も含まれていました。
ブログでは、これらの課題に対処し、このデータセットをメダリオンアーキテクチャの3つの異なる層(ブロンズ、シルバー、ゴールド)に整理するワークフローについて説明しています。チームは、最近リリースされたJSON型も多用しています。
クイックリード
- Hellmar Beckerが最近ClickHouseに入社し、その機能を試しています。彼の最初のブログ記事では、配列処理関数について探求し、2番目の記事では、ClickHouseで線形代数を行う方法を解説しています。
- Hardik Singh Behlは、ClickHouseをSpring Bootアプリケーションに統合する方法を探求しています。彼は最初にアプリケーションを設定し、データベース接続を確立してから、いくつかのCRUD操作を実行しています。
- Andrei Tserakhauは、オープンソースのクラウドネイティブな取り込みエンジンであるTransferを使用して、MySQLからClickHouseにデータを転送する方法を示しています。
- Shivji kumar Jhaは、トランザクションの信頼性と高速分析のバランスを取りながら、PostgresとClickHouseが統合されたデータ管理ソリューションとしてどのように連携できるかを探求しています。
ビデオコーナー
- All Things Open 2024 conferenceでは、2名のClickHouseスピーカーが登壇しました。Tanya Braginは、モノリシックなクラウドデータウェアハウスの代替案を提供することで、オープンソース技術とデータレイク標準が最新のデータスタックをどのように変革しているかを探求しました。
- Zoe Steinkampは、従来の行ベースシステムよりも優れたパフォーマンスを提供することで、列指向データベースがデータウェアハウジングと分析に革命を起こしているかを説明しました。Zoeはまた、コストを削減し、クエリパフォーマンスを向上させながら、Apache Arrow、Parquet、Pandasなどのツールを使用して効率的な分析アプリケーションを構築する方法も実演しました。/li>
- Markは、ClickHouse Server、clickhouse-local、chDBなど、ClickHouseのさまざまなデプロイメントモードについて説明しました。
- Avi Pressは、Scarfがどのように毎日約25GBのデータと5000万件のイベントを処理するClickHouseをバックエンドとしたデータパイプラインを構築したかを説明しています。
今月の投稿
今月のお気に入りの投稿は、Dmytro Shevchenkoによるものです。