Перейти к основному содержимому

Фильтрация выбросов

Обучающая выборка может содержать как типичные, так и нетипичные объекты, называемые выбросами (outliers) и аномалиями (anomaly). Выбросы, как правило, лежат далеко от основного распределения объектов и способны существенно ухудшить настройку модели. Выбросами могут выступать:

  • Измерения, произведённые с ошибкой. Например, операционист неверно занес данные в компьютер.

  • Верно измеренные объекты, но нетипичные по своей сути и требующие отдельной обработки. Например, в мониторинге логов на сайте выбросам могут соответствовать активность не реальных пользователей, а ботов.

Чтобы настроить модель устойчивее обрабатывать именно типичные случаи, необходимо провести предварительную фильтрацию выбросов (outlier detection). Существуют отдельный класс методов, позволяющий идентифицировать объекты-выбросы сразу по всему вектору признаков, см. [1]. Однако для первичной обработки может использоваться и простой анализ распределений каждого признака в отдельности с идентификацией аномально больших и аномально малых значений.

Детальнее о задаче фильтрации выбросов можно прочитать в [2]. Простые программные способы обрезки аномальных значений в отдельных признаках описаны в документации библиотеки feature-engine [3].

Литература

  1. Документация scikit-learn: outlier_detection.

  2. Geeksforgeeks: what is anomaly detection?

  3. Документация feature-engine: outliers.