Сокращение числа признаков
Исходных признаков может быть изначально известно слишком много. Либо могло появится много новых признаков после их генерации из существующих.
Число оцениваемых параметров модели растет с увеличением числа признаков. Например, линейные модели прогнозируют отклик, отталкиваясь от линейной комбинации признаков с оцениваемыми весами. Чем больше признаков - тем больше весов нужно оценить. При ограниченной обучающей выборке это будет приводить к неточной оценке коэффициентов и переобучению модели. Увеличение числа признаков также увеличивает накладные расходы на хранение и обработку данных.
Поэтому, если число входных признаков велико, то используют сокращение числа признаков, которое может осуществляться методами отбора признаков (feature selection) и снижения размерности (dimensionality reduction), графически показанных ниже:
Отбор признаков и снижение размерности решают одинаковую задачу сокращения числа признаков, которые будет использовать последующая модель. Однако при отборе признаков используется подмножество из исходных признаков, а остальные просто отбрасываются. При снижении размерности каждый выходной признак получается некоторым преобразованием над всеми исходными признаками.
В качестве метода отбора признаков, например, можно выбрать подмножество признаков, которые сильн ее всего скоррелированы с откликом. А в качестве снижения размерности часто используется метод главных компонент (principal component analysis, PCA), который линейной трансформацией переводит объекты из многомерного признакового пространства в маломерное таким образом, чтобы сумма квадратов расстояний от исходных объектов до их проекций оказывалась наименьшей, как показано ниже (при переводе объектов из 3-х мерного признакового пространства в 2-мерное):