Зависимость прогноза от признаков
Сложные неинтерпретируемые модели (black-box models) можно анализировать, визуализируя зависимость их прогнозов от изменения отдельных входных признаков. Тем самым можно выделить признаки, оказывающие наибольшее влияние на модель, а также оценить характер этого влияния и проверить, насколько это влияние согласуется с априорными знаниями.
График частичной зависимости
Определение
График частичной зависимости (partial dependence plot, PDP [1]) показывает влияние выбранного признака (например, первого) на прогноз модели , где вектором обозначены все признаки, кроме выбранного (например, второй, третий и т.д.). Определим ожидаемое значение прогноза , зафиксировав интересующий признак и усредняя по всем оставшимся:
На практике распределение признаков неизвестно, поэтому используется численная оценка среднего по объектам выборки при фиксированном признаке :
представляет собой объект , у которого интересующий признак положен равным .
Примеры
Рассмотрим задачу BikeSharing [2], в которой прогнозируется число арендованных велосипедов по характеристикам дня (дата, температура, влажность и т.д.). График частичной зависимости для этой задачи показан на рисунке ниже для вещественных признаков слева, а для категориального признака (season) справа [3]:
По графикам видно, что велосипедов арендуется меньше при низкой и высокой температуре. Снижает число аренд высокая влажность и скорость ветра. Это согласуется с общей логикой и свидетельствует в пользу того, что модель построена верно. Хотя зависимость от сезона оказалась не настолько ярко выражена.