Фильтрация выбросов
Обучающая выборка может содержать как типичные, так и нетипичные объекты, называемые выбросами (outliers) и аномалиями (anomaly). Выбросы, как правило, лежат далеко от основного распределения объектов и способны существенно ухудшить настройку модели. Выбросами могут выступать:
-
Измерения, произведённые с ошибкой. Например, операционист неверно занес данные в компьютер.
-
Верно измеренные объекты, но нетипичные по своей сути и требующие отдельной обработки. Например, в мониторинге логов на сайте выбросам могут соответствовать активность не реальных пользователей, а ботов.
Чтобы настроить модель устойчивее обрабатывать именно типичные случаи, необходимо провести предварительную фильтрацию выбросов (outlier detection). Существуют отдельный класс методов, позволяющий идентифицировать объекты-выбросы сразу по всему вектору признаков, см. [1]. Однако для первичной обработки может использоваться и простой анализ распределений каждого признака в отдельности с идентификацией аномально больших и аномально малых значений.
Детальнее о задаче фильтрации выбросов можно прочитать в [2]. Простые программные способы обрезки аномальных значений в о тдельных признаках описаны в документации библиотеки feature-engine
[3].