Обработка целевой переменной
Помимо предобработки признаков можно анализировать и обрабатывать и саму целевую переменную . Например, удалять объекты, у которых отклик получился аномально большим или малым.
Также часто случается так, что проще прогнозировать не исходный отклик , а некоторую его преобразованную версию . Например, при построении линейной регрессии может выясниться, что признаки и отклик связаны не линейно, а по экспоненциальному закону.
Тогда нужно нелинейно преобразовывать целевую переменную:
после чего обучать модель на выборке
Во время применения модели её прогнозы нужно возвращать в исходную шкалу изменения отклика:
где - обратная функция к .
Для откликов, принимающих только положительные значения, популярным преобразованием является логарифмирование и последующее экспоненцирование:
Более общий способ - подобрать такое преобразование целевой переменной, при котором отклик становится распределённым по нормальному закону распределения.
Если - функция распределения , а - функция распределения стандартного нормального распределения, то преобразование будет монотонным, а преобразованный таким образом отклик - нормально распределённым со средним 0 и дисперсией 1. Такое преобразование реализовано в библиотеке sklearn.