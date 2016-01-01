Ключевые отличия от pandas

Хотя DataStore в значительной степени совместим с pandas, важно понимать некоторые важные отличия.

Аспект pandas DataStore Выполнение Раннее (немедленное) Отложенное (ленивое) Типы возвращаемых значений DataFrame/Series DataStore/ColumnExpr Порядок строк Сохраняется Сохраняется (автоматически); не гарантируется в режиме производительности inplace Поддерживается Не поддерживается Индекс Полная поддержка Упрощённая Память Все данные в памяти Данные остаются у источника

Операции выполняются немедленно:

import pandas as pd df = pd.read_csv("data.csv") # Loads entire file NOW result = df[df['age'] > 25] # Filters NOW grouped = result.groupby('city')['salary'].mean() # Aggregates NOW

Операции выполняются только тогда, когда требуются результаты.

from chdb import datastore as pd ds = pd.read_csv("data.csv") # Just records the source result = ds[ds['age'] > 25] # Just records the filter grouped = result.groupby('city')['salary'].mean() # Just records # Execution happens here: print(grouped) # Executes when displaying df = grouped.to_df() # Or when converting to pandas

Ленивое выполнение позволяет:

Оптимизацию запросов : несколько операций объединяются в один SQL-запрос

: несколько операций объединяются в один SQL-запрос Отсечение столбцов : считываются только необходимые столбцы

: считываются только необходимые столбцы Проталкивание фильтров : фильтры применяются на стороне источника данных

: фильтры применяются на стороне источника данных Более эффективное использование памяти: данные, которые не нужны, не загружаются

df['col'] # Returns pd.Series df[['a', 'b']] # Returns pd.DataFrame df[df['x'] > 10] # Returns pd.DataFrame df.groupby('x') # Returns DataFrameGroupBy

ds['col'] # Returns ColumnExpr (lazy) ds[['a', 'b']] # Returns DataStore (lazy) ds[ds['x'] > 10] # Returns DataStore (lazy) ds.groupby('x') # Returns LazyGroupBy

# Get pandas DataFrame df = ds.to_df() df = ds.to_pandas() # Get pandas Series from column series = ds['col'].to_pandas() # Or trigger execution print(ds) # Automatically converts for display

DataStore выполняет вычисления, когда вам нужны фактические значения:

Триггер Пример Примечания print() / repr() print(ds) Для отображения нужны данные len() len(ds) Нужно количество строк .columns ds.columns Нужны имена столбцов .dtypes ds.dtypes Нужна информация о типах .shape ds.shape Нужны размеры .values ds.values Нужны фактические данные .index ds.index Нужен индекс to_df() ds.to_df() Явное преобразование Итерация for row in ds Нужно итерироваться equals() ds.equals(other) Нужно сравнение

Операция Возвращает filter() DataStore select() DataStore sort() DataStore groupby() LazyGroupBy join() DataStore ds['col'] ColumnExpr ds[['a', 'b']] DataStore ds[condition] DataStore

Порядок строк всегда сохраняется:

df = pd.read_csv("data.csv") print(df.head()) # Always same order as file

Порядок строк автоматически сохраняется при большинстве операций:

ds = pd.read_csv("data.csv") print(ds.head()) # Matches file order # Filter preserves order ds_filtered = ds[ds['age'] > 25] # Same order as pandas

DataStore автоматически отслеживает исходные позиции строк во внутреннем представлении (используя rowNumberInAllBlocks() ), чтобы порядок соответствовал порядку в pandas.

Источники из файлов (CSV, Parquet, JSON и т. д.)

Источники pandas DataFrame

Операции фильтрации

Выбор столбцов

После явного вызова sort() или sort_values()

или Операции, задающие порядок ( nlargest() , nsmallest() , head() , tail() )

После агрегаций с groupby() (используйте sort_values() для обеспечения детерминированного порядка)

(используйте для обеспечения детерминированного порядка) После merge() / join() с определёнными типами соединений

/ с определёнными типами соединений В режиме производительности ( config.use_performance_mode() ): порядок строк не гарантируется ни для каких операций. См. Режим производительности.

df.drop(columns=['col'], inplace=True) # Modifies df df.fillna(0, inplace=True) # Modifies df df.rename(columns={'old': 'new'}, inplace=True)

inplace=True не поддерживается. Всегда присваивайте результат:

ds = ds.drop(columns=['col']) # Returns new DataStore ds = ds.fillna(0) # Returns new DataStore ds = ds.rename(columns={'old': 'new'}) # Returns new DataStore

DataStore использует неизменяемые операции для:

построения запросов (ленивое вычисление)

потокобезопасности

более простой отладки

более чистого кода

Полная поддержка индексов:

df = df.set_index('id') df.loc['user123'] # Label-based access df.loc['a':'z'] # Label-based slicing df.reset_index() df.index.name = 'user_id'

Упрощённая поддержка индексов:

# Basic operations work ds.loc[0:10] # Integer position ds.iloc[0:10] # Same as loc for DataStore # For pandas-style index operations, convert first df = ds.to_df() df = df.set_index('id') df.loc['user123']

Источник DataFrame : сохраняет индекс pandas

: сохраняет индекс pandas Файловый источник: использует простой целочисленный индекс

pandas не распознаёт объекты типа DataStore:

import pandas as pd from chdb import datastore as ds pdf = pd.DataFrame({'a': [1, 2, 3]}) dsf = ds.DataFrame({'a': [1, 2, 3]}) # This doesn't work as expected pdf == dsf # pandas doesn't know DataStore # Solution: convert DataStore to pandas pdf.equals(dsf.to_pandas()) # True

# DataStore.equals() also works dsf.equals(pdf) # Compares with pandas DataFrame

Используются типы numpy/pandas:

df['col'].dtype # int64, float64, object, datetime64, etc.

Может использовать типы данных ClickHouse:

ds['col'].dtype # Int64, Float64, String, DateTime, etc. # Types are converted when going to pandas df = ds.to_df() df['col'].dtype # Now pandas type

# Force specific type ds['col'] = ds['col'].astype('int64')

Все данные хранятся в памяти:

df = pd.read_csv("huge.csv") # 10GB in memory!

Данные остаются в исходном источнике до тех пор, пока не понадобятся:

ds = pd.read_csv("huge.csv") # Just metadata ds = ds.filter(ds['year'] == 2024) # Still just metadata # Only filtered result is loaded df = ds.to_df() # Maybe only 1GB now

ошибки pandas : из библиотеки pandas

: из библиотеки pandas ошибки DataStore: из chDB или ClickHouse

# May see ClickHouse-style errors # "Code: 62. DB::Exception: Syntax error..."

# View the SQL to debug print(ds.to_sql()) # See execution plan ds.explain() # Enable debug logging from chdb.datastore.config import config config.enable_debug()

При миграции с pandas:

Измените инструкцию import

Измените инструкцию Удалите параметры inplace=True

Удалите параметры Добавьте явный вызов to_df() , когда требуется pandas DataFrame

Добавьте явный вызов , когда требуется pandas DataFrame Добавьте сортировку, если важен порядок строк

Добавьте сортировку, если важен порядок строк Используйте to_pandas() для сравнительных тестов

Используйте для сравнительных тестов Тестируйте на репрезентативных объёмах данных