Зависимость прогноза от признаков
Неинтерпретируемые (black-box) модели можно анализировать, визуализируя зависимость их прогнозов от изменения отдельных входных признаков. Тем самым можно выделить признаки, оказывающие наибольшее влияние на модель, а также оценить характер этого влияния и проверить, насколько это влияние согласуется с общей логикой.
График частичной зависимости
График частичной зависимости (partial dependence plot, PDP) показывает влияние выбранного признака (например, первого) на прогноз модели , где вектором обозначены все признаки, кроме выбранного (например, второй, третий и т.д.). Определим ожидаемое значение прогноза , зафиксировав интересующий признак и усредняя по всем оставшимся:
На практике распределение признаков неизвестно, поэтому используется численная оценка среднего по объектам выборки при фиксированном признаке :
Рассмотрим задачу BikeSharing, в которой прогнозируется число арендованных велосипедов по характеристикам дня (дата, температура, влажность и т.д.). График частичной зависимости для этой задачи показан на рисунке ниже (источник) для вещественных признаков слева, а для категориального признака (season) справа.
По графикам видно, что велосипедов арендуется меньше при низкой и высокой температуре. Снижает число аренд высокая влажность и скорость ветра. Это согласуется с общей логикой и свидетельствует в пользу того, что модель построена верно. Хотя зависимость от сезона оказалась не настолько ярко выражена.
Можно строить PDP-график зависимости сразу для пары признаков. В этом случае он будет представлять собой тепловую карту (heatmap) изменений целевого значения от двух признаков, на которой будет видно их совместное воздействие на прогноз.
Преимущества и недостатки метода
График частичной зависимости PDP интуитивен и его легко реализовать. Также эту зависимость можно строить не для одного, а сразу для двух признаков.
PDP - это метод глобальной интерпретации модели (без привязки к определённому о бъекту). Отчасти это плюс, поскольку даёт глобальный взгляд на зависимость модели от признака, а отчасти - минус. Во-первых, вычисление PDP затратно по ресурсам - приходится проводить усреднение по всем объектам выборки для каждого значения признака (для больших выборок лучше считать приближённо по подвыборке). Во-вторых, из-за слишком высокой степени агрегации можем потерять часть зависимостей. Например, если для половины объектов признак положительно влияет на прогноз, а для другой половины - отрицательно, то при усреднении получим отсутствие связи!
В PDP предполагается, что интересующий признак и остальные признаки независимы, поскольку при построении гра фика значение интересующего признака фиксируется, а остальные признаки берутся из выборки независимо. Если признаки сильно зависимы, это может приводить к появлению малореальных объектов. Например, при анализе данных пациентов больницы можно строить PDP для признака "рост". При этом скоррелированный признак "вес" будет браться независимо от роста, что будет приводить к появлению нереалистичных пациентов с детским ростом и взрослым весом.
График индивидуальных условных ожиданий
График индивидуальных условных ожиданий (Individual Conditional Expectation, ICE) показывает зависимость отклика от интересующего признака, не усредняя по остальным объектам, а для каждого объекта в отдельности. Разобьём, как и раньше, вектор признаков на интересующий признак и все остальные признаки . ICE график представляет собой совокупность графиков зависимостей прогноза от признака для каждого объекта валидационной выборки :
и показан для задачи BikeSharing на рисунке ниже (источник):
График ICE даёт более детальную картину: он показывает влияние интересующего признака на прогноз по каждому объекту в отдельности, что позволяет увидеть, например, ситуацию, когда для половины объектов признак имеет положительное влияние, а для половины - отрицательное.
Недостатком подхода является перегруженная графиками иллюстрация, на которой сложно выделить основные тенденции, поэтому часто строят графики сдвинутых индивидуальных условных ожиданий (Centered ICE plot, c-ICE) по объектам, центрируя, чтобы все графики выходили из одной точки:
после чего отдельным цветом можно отобразить усреднённую по объектам зависимость для простоты визуализации, как показано ниже:
Усреднённая зависимость на графике (жёлтая), с точностью до сдвига, будет PDP-графиком.
Стоит отметить, что как графики ICE и c-ICE, точно так же, как PDP, опираются на предположение о независимости признака от всех остальных, поскольку используют сгенерированные объекты, где признаки меняются независимо. Это может приводить к появлению на графике результатов по несуществующим в природе объектам (тот же пример - вес и рост пациента связаны, а мы, варьируя рост, вес оставляем прежним).