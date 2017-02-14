Набор данных LAION 5B

Набор данных LAION 5b содержит 5.85 миллиарда векторов изображений и текста и связанную с ними метаинформацию об изображениях. Векторы были сгенерированы с использованием модели Open AI CLIP ViT-L/14. Размерность каждого вектора составляет 768 .

Этот набор данных можно использовать для моделирования проектирования, масштабирования и производительности для крупномасштабного, реального приложения векторного поиска. Набор данных может использоваться как для поиска по тексту, так и для поиска по изображениям.

Полный набор данных доступен в виде смеси файлов npy и Parquet на the-eye.eu.

ClickHouse предоставил подмножество из 100 миллионов векторов в корзине S3 . Корзина S3 содержит 10 файлов Parquet , каждый из которых заполнен 10 миллионами строк.

Рекомендуем пользователям сначала провести оценку размера, чтобы оценить требования к хранилищу и памяти для этого набора данных, обратившись к документации.