Перейти к основному содержимому

Фильтрация выбросов

Обучающая выборка может содержать как типичные, так и нетипичные объекты, называемые выбросами (outliers) и аномалиями (anomaly). Выбросы, как правило, лежат далеко от основного распределения объектов и способны существенно испортить настройку модели. Выбросами могут выступать измерения, произведённые с ошибкой (например, операционистка неверно занесла данные в компьютер), либо верно измеренные объекты, нетипичные по своей сути и требующие отдельной обработки. Например, в мониторинге логов на сайте выбросам могут соответствовать активность не реальных пользователей, а ботов.

Чтобы этого не происходило, необходимо провести предварительную фильтрацию выбросов (outlier detection). Существуют отдельный класс методов, позволяющий идентифицировать объекты-выбросы сразу по всему вектору признаков. Однако для первичной обработки может использоваться и простой анализ распределений каждого признака в отдельности с идентификацией аномально больших и аномально малых значений.