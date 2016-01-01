Hacker News 向量搜索数据集

Hacker News 数据集 包含 2874 万 条帖子及其向量嵌入。这些嵌入是使用 SentenceTransformers 模型 all-MiniLM-L6-v2 生成的。每个嵌入向量的维度为 384 。

该数据集可用于走访大型、真实世界向量搜索应用程序的设计、规模和性能方面，该应用程序建立在用户生成的文本数据之上。

ClickHouse 提供的完整数据集与向量嵌入作为一个单一的 Parquet 文件存储在 S3 bucket

我们建议用户首先进行规模估算，以通过参考 文档 来估计该数据集的存储和内存需求。