Расскажите про методы заполнения пропусков в данных. Когда стоит использовать заполнение глобальным средним, а когда - условным? (при условии другого известного признака)
Какие есть сравнительные преимущества и недостатки у кодирования средним и one-hot кодирования при кодировании категориальных признаков?
Как вы думаете, зачем в циклическом кодировании используется пара из синуса и косинуса? Почему не ограничиваются одной из этих периодических функций?
Какими выходными свойствами будет обладать нормализованный признак после его нормализации посредством стандартизации, диапазонного шкалирования и нормализации средним?
Квантилю и персентилю с каким уровнем будет соответствовать медиана?
Почему медиана, как оценка центра вероятностного распределения, будет обладать устойчивостью к выбросам?
Пусть перед вами стоит задача снижения размерности признакового пространства. В каких случаях снижение размерности следует предпочесть отбору признаков?