Перейти к основному содержимому

Сокращение числа признаков

Исходных признаков может быть изначально известно слишком много. Либо могло появится много новых признаков после их генерации из существующих.

Число оцениваемых параметров модели растет с увеличением числа признаков. Например, линейные модели прогнозируют отклик, отталкиваясь от линейной комбинации признаков с оцениваемыми весами. Чем больше признаков - тем больше весов нужно оценить. При ограниченной обучающей выборке это будет приводить к неточной оценке коэффициентов и переобучению модели. Увеличение числа признаков также увеличивает накладные расходы на хранение и обработку данных.

Поэтому, если число входных признаков велико, то используют сокращение числа признаков, которое может осуществляться методами отбора признаков (feature selection) и снижения размерности (dimensionality reduction), графически показанных ниже:

feature-reduction.png

Отбор признаков и снижение размерности решают одинаковую задачу сокращения числа признаков, которые будет использовать последующая модель. Однако при отборе признаков используется подмножество из исходных признаков, а остальные просто отбрасываются. При снижении размерности каждый выходной признак получается некоторым преобразованием над всеми исходными признаками.

В качестве метода отбора признаков, например, можно выбрать подмножество признаков, которые сильнее всего скоррелированы с откликом. А в качестве снижения размерности часто используется метод главных компонент (principal component analysis, PCA), который линейной трансформацией переводит объекты из многомерного признакового пространства в маломерное таким образом, чтобы сумма квадратов расстояний от исходных объектов до их проекций оказывалась наименьшей, как показано ниже (при переводе объектов из 3-х мерного признакового пространства в 2-мерное):

PCA-example.png