Обработка пропущенных значений
Часто неко торые признаки в данных могут отсутствовать. Пропущенные значения можно заполнить одним из стандартных методов. Однако решающие деревья способны обрабатывать пропущенные значения даже без их предварительного заполнения.
Если пропущенный признак присутствуют только в тестовых данных (но не в обучающих), то при проверке правила
можно направить объект в дочерний узел, содержащий больше объектов обучающей выборки.
Если же признак содержит пропущенные значения и в обучающих объектах тоже, то можно направлять все объекты с пропущенными значениями всегда в левый или правый дочерний узел, в зависимости от того, какой из способов приводит к большему уменьшению функции неопределённости на обучающей выборке.
Вместо того, чтобы направлять объекты с пропущенным признаком всегда влево или вправо можно его одновременно направить и влево (получив прогноз ), и вправо (получив прогноз ), а в качестве итогового прогноза выдать
где - число обучающих объектов, попавший в узел, в котором проверяется значение пропущенного признака, а и - количества обучающих объектов, спускающихся в левую и правую дочернюю вершину соответственно.