Вопросы для самопроверки
- Расскажите про методы заполнения пропусков в данных. Когда стоит использовать заполнение глобальным средним, а когда - условным (при условии другого известного признака)?
- Какие есть сравнительные преимущества и недостатки у кодирования средним и one-hot кодирования при кодировании категориальных признаков?
- Как вы думаете, зачем в циклическом кодировании используется пара из синуса и косинуса? Почему не ограничиваются одной из этих периодических функций?
- Какими выходными свойствами будет обладать нормализованный признак после его нормализации посредством стандартизации, диапазонного шкалирования и нормализации средним?
- Квантилю и персентилю с каким уровнем будет соответствовать медиана распределения?
- Почему медиана, как оценка центра вероятностного распределения, будет обладать устойчивостью к выбросам?
- Пусть перед вами стоит задача снижения размерности признакового пространства. В каких случаях снижение размерности следует предпочесть отбору признаков?