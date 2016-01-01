Типы размещения словаря range_hashed

Словарь хранится в памяти в виде хеш-таблицы с упорядоченным массивом диапазонов и соответствующих им значений.

Этот метод хранения работает аналогично hashed и позволяет использовать диапазоны даты/времени (произвольный числовой тип) в дополнение к ключу.

Пример: таблица содержит скидки для каждого рекламодателя в формате:

┌─advertiser_id─┬─discount_start_date─┬─discount_end_date─┬─amount─┐ │ 123 │ 2015-01-16 │ 2015-01-31 │ 0.25 │ │ 123 │ 2015-01-01 │ 2015-01-15 │ 0.15 │ │ 456 │ 2015-01-01 │ 2015-01-15 │ 0.05 │ └───────────────┴─────────────────────┴───────────────────┴────────┘

Чтобы использовать поиск по диапазонам дат, определите элементы range_min и range_max в структуре. Эти элементы должны содержать элементы name и type (если type не указан, будет использован тип по умолчанию — Date). type может быть любым числовым типом (Date / DateTime / UInt64 / Int32 / другие).

Примечание Значения range_min и range_max должны укладываться в диапазон типа Int64 .

Пример:

DDL

Файл конфигурации CREATE DICTIONARY discounts_dict ( advertiser_id UInt64, discount_start_date Date, discount_end_date Date, amount Float64 ) PRIMARY KEY id SOURCE(CLICKHOUSE(TABLE 'discounts')) LIFETIME(MIN 1 MAX 1000) LAYOUT(RANGE_HASHED(range_lookup_strategy 'max')) RANGE(MIN discount_start_date MAX discount_end_date) <layout> <range_hashed> <!-- Стратегия для пересекающихся диапазонов (min/max). По умолчанию: min (возвращает подходящий диапазон со значением min(range_min -> range_max)) --> <range_lookup_strategy>min</range_lookup_strategy> </range_hashed> </layout> <structure> <id> <name>advertiser_id</name> </id> <range_min> <name>discount_start_date</name> <type>Date</type> </range_min> <range_max> <name>discount_end_date</name> <type>Date</type> </range_max> ...

Для работы с такими словарями необходимо передать дополнительный аргумент в функцию dictGet — значение, для которого подбирается диапазон:

dictGet('dict_name', 'attr_name', id, date)

Пример запроса:

SELECT dictGet('discounts_dict', 'amount', 1, '2022-10-20'::Date);

Эта функция возвращает значение для указанных id и диапазона дат, содержащего переданную дату.

Подробности алгоритма:

Если id не найден или для этого id не найден диапазон, возвращается значение по умолчанию для типа атрибута.

не найден или для этого не найден диапазон, возвращается значение по умолчанию для типа атрибута. Если имеются пересекающиеся диапазоны и range_lookup_strategy=min , возвращается подходящий диапазон с минимальным range_min ; если найдено несколько диапазонов — возвращается диапазон с минимальным range_max ; если снова найдено несколько диапазонов (несколько диапазонов имеют одинаковые range_min и range_max ), возвращается случайный диапазон из них.

, возвращается подходящий диапазон с минимальным ; если найдено несколько диапазонов — возвращается диапазон с минимальным ; если снова найдено несколько диапазонов (несколько диапазонов имеют одинаковые и ), возвращается случайный диапазон из них. Если имеются пересекающиеся диапазоны и range_lookup_strategy=max , возвращается подходящий диапазон с максимальным range_min ; если найдено несколько диапазонов — возвращается диапазон с максимальным range_max ; если снова найдено несколько диапазонов (несколько диапазонов имеют одинаковые range_min и range_max ), возвращается случайный диапазон из них.

, возвращается подходящий диапазон с максимальным ; если найдено несколько диапазонов — возвращается диапазон с максимальным ; если снова найдено несколько диапазонов (несколько диапазонов имеют одинаковые и ), возвращается случайный диапазон из них. Если range_max имеет значение NULL , диапазон является открытым. NULL трактуется как максимально возможное значение. Для range_min в качестве открытого значения могут использоваться 1970-01-01 или 0 (-MAX_INT).

Пример конфигурации:

DDL

Файл конфигурации CREATE DICTIONARY somedict( Abcdef UInt64, StartTimeStamp UInt64, EndTimeStamp UInt64, XXXType String DEFAULT '' ) PRIMARY KEY Abcdef RANGE(MIN StartTimeStamp MAX EndTimeStamp) <clickhouse> <dictionary> ... <layout> <range_hashed /> </layout> <structure> <id> <name>Abcdef</name> </id> <range_min> <name>StartTimeStamp</name> <type>UInt64</type> </range_min> <range_max> <name>EndTimeStamp</name> <type>UInt64</type> </range_max> <attribute> <name>XXXType</name> <type>String</type> <null_value /> </attribute> </structure> </dictionary> </clickhouse>

Пример конфигурации с пересекающимися и открытыми диапазонами:

CREATE TABLE discounts ( advertiser_id UInt64, discount_start_date Date, discount_end_date Nullable(Date), amount Float64 ) ENGINE = Memory; INSERT INTO discounts VALUES (1, '2015-01-01', Null, 0.1); INSERT INTO discounts VALUES (1, '2015-01-15', Null, 0.2); INSERT INTO discounts VALUES (2, '2015-01-01', '2015-01-15', 0.3); INSERT INTO discounts VALUES (2, '2015-01-04', '2015-01-10', 0.4); INSERT INTO discounts VALUES (3, '1970-01-01', '2015-01-15', 0.5); INSERT INTO discounts VALUES (3, '1970-01-01', '2015-01-10', 0.6); SELECT * FROM discounts ORDER BY advertiser_id, discount_start_date; ┌─advertiser_id─┬─discount_start_date─┬─discount_end_date─┬─amount─┐ │ 1 │ 2015-01-01 │ ᴺᵁᴸᴸ │ 0.1 │ │ 1 │ 2015-01-15 │ ᴺᵁᴸᴸ │ 0.2 │ │ 2 │ 2015-01-01 │ 2015-01-15 │ 0.3 │ │ 2 │ 2015-01-04 │ 2015-01-10 │ 0.4 │ │ 3 │ 1970-01-01 │ 2015-01-15 │ 0.5 │ │ 3 │ 1970-01-01 │ 2015-01-10 │ 0.6 │ └───────────────┴─────────────────────┴───────────────────┴────────┘ -- RANGE_LOOKUP_STRATEGY 'max' CREATE DICTIONARY discounts_dict ( advertiser_id UInt64, discount_start_date Date, discount_end_date Nullable(Date), amount Float64 ) PRIMARY KEY advertiser_id SOURCE(CLICKHOUSE(TABLE discounts)) LIFETIME(MIN 600 MAX 900) LAYOUT(RANGE_HASHED(RANGE_LOOKUP_STRATEGY 'max')) RANGE(MIN discount_start_date MAX discount_end_date); select dictGet('discounts_dict', 'amount', 1, toDate('2015-01-14')) res; ┌─res─┐ │ 0.1 │ -- the only one range is matching: 2015-01-01 - Null └─────┘ select dictGet('discounts_dict', 'amount', 1, toDate('2015-01-16')) res; ┌─res─┐ │ 0.2 │ -- two ranges are matching, range_min 2015-01-15 (0.2) is bigger than 2015-01-01 (0.1) └─────┘ select dictGet('discounts_dict', 'amount', 2, toDate('2015-01-06')) res; ┌─res─┐ │ 0.4 │ -- two ranges are matching, range_min 2015-01-04 (0.4) is bigger than 2015-01-01 (0.3) └─────┘ select dictGet('discounts_dict', 'amount', 3, toDate('2015-01-01')) res; ┌─res─┐ │ 0.5 │ -- two ranges are matching, range_min are equal, 2015-01-15 (0.5) is bigger than 2015-01-10 (0.6) └─────┘ DROP DICTIONARY discounts_dict; -- RANGE_LOOKUP_STRATEGY 'min' CREATE DICTIONARY discounts_dict ( advertiser_id UInt64, discount_start_date Date, discount_end_date Nullable(Date), amount Float64 ) PRIMARY KEY advertiser_id SOURCE(CLICKHOUSE(TABLE discounts)) LIFETIME(MIN 600 MAX 900) LAYOUT(RANGE_HASHED(RANGE_LOOKUP_STRATEGY 'min')) RANGE(MIN discount_start_date MAX discount_end_date); select dictGet('discounts_dict', 'amount', 1, toDate('2015-01-14')) res; ┌─res─┐ │ 0.1 │ -- the only one range is matching: 2015-01-01 - Null └─────┘ select dictGet('discounts_dict', 'amount', 1, toDate('2015-01-16')) res; ┌─res─┐ │ 0.1 │ -- two ranges are matching, range_min 2015-01-01 (0.1) is less than 2015-01-15 (0.2) └─────┘ select dictGet('discounts_dict', 'amount', 2, toDate('2015-01-06')) res; ┌─res─┐ │ 0.3 │ -- two ranges are matching, range_min 2015-01-01 (0.3) is less than 2015-01-04 (0.4) └─────┘ select dictGet('discounts_dict', 'amount', 3, toDate('2015-01-01')) res; ┌─res─┐ │ 0.6 │ -- two ranges are matching, range_min are equal, 2015-01-10 (0.6) is less than 2015-01-15 (0.5) └─────┘

Словарь хранится в памяти в виде хеш-таблицы с упорядоченным массивом диапазонов и соответствующими им значениями (см. range_hashed). Этот тип хранения предназначен для использования с составными ключами.

