DataPreprocessor - Предобработка табличных данных

Тестовое задание для Северсталь

Класс DataPreprocessor выполняет базовые операции по очистке и трансформации табличных данных в формате pandas DataFrame: удаление и заполнение пропусков, кодирование категориальных признаков, нормализация числовых столбцов.

Основные возможности

1. Обработка пропусков (`remove_missing`)

Очистка данных от NaN значений:

Удаление столбцов: Если доля пропусков превышает заданный порог (threshold).
Заполнение пропусков:
- Для числовых данных: стратегии 'mean', 'median', 'mode'.
- Для категориальных/строковых данных: всегда используется 'mode', независимо от выбранной стратегии.

2. Кодирование категорий (`encode_categorical`)

Автоматическое преобразование строковых признаков (object, category) в числовой вид методом One-Hot Encoding.

3. Нормализация данных (`normalize_numeric`)

Приведение числовых признаков к единому масштабу.

Методы:
- 'minmax' - масштабирование в диапазон [0, 1].
- 'std' - Z-score стандартизация (используется ddof=0).
Бинарные столбцы, полученные после One-Hot Encoding, автоматически исключаются из нормализации, чтобы сохранить их интерпретируемость.

4. Pipeline подход (`fit_transform` & `transform`)

Класс реализует интерфейс, схожий с scikit-learn:

fit_transform() - вычисляет статистики на обучающей выборке и преобразует её.
transform() - применяет те же самые параметры (сохраненные в PipelineState) к новым данным.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
data_preprocessor.py		data_preprocessor.py
demo.ipynb		demo.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataPreprocessor - Предобработка табличных данных

Основные возможности

1. Обработка пропусков (`remove_missing`)

2. Кодирование категорий (`encode_categorical`)

3. Нормализация данных (`normalize_numeric`)

4. Pipeline подход (`fit_transform` & `transform`)

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DataPreprocessor - Предобработка табличных данных

Основные возможности

1. Обработка пропусков (remove_missing)

2. Кодирование категорий (encode_categorical)

3. Нормализация данных (normalize_numeric)

4. Pipeline подход (fit_transform & transform)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. Обработка пропусков (`remove_missing`)

2. Кодирование категорий (`encode_categorical`)

3. Нормализация данных (`normalize_numeric`)

4. Pipeline подход (`fit_transform` & `transform`)

Packages