Зависимость прогноза от признаков

Сложные неинтерпретируемые модели (black-box models) можно анализировать, визуализируя зависимость их прогнозов от изменения отдельных входных признаков. Тем самым можно выделить признаки, оказывающие наибольшее влияние на модель, а также оценить характер этого влияния и проверить, насколько это влияние согласуется с априорными знаниями.

График частичной зависимости

Определение

График частичной зависимости (partial dependence plot, PDP [1]) показывает влияние выбранного признака $u$ (например, первого) на прогноз модели $f\left(\mathbf{x}\right)=f\left([u,\mathbf{v}]\right)$ , где вектором $\mathbf{v}$ обозначены все признаки, кроме выбранного (например, второй, третий и т.д.). Определим ожидаемое значение прогноза $g\left(u\right)$ , зафиксировав интересующий признак и усредняя по всем оставшимся:

g_{u}\left(u\right)=\mathbb{E}_{\mathbf{v}}\left\{ f\left([u,\mathbf{v}]\right)\right\} =\int f\left([u,\mathbf{v}]\right)d\mathbb{P}\left(\mathbf{v}\right)

На практике распределение признаков неизвестно, поэтому используется численная оценка среднего по объектам выборки при фиксированном признаке $u$ :

\widehat{g}_{u}\left(u\right)=\frac{1}{N}\sum_{n=1}^{N}f\left([u,\mathbf{v}_{n}]\right)

$[u,\mathbf{v}_{n}]$ представляет собой объект $\mathbf{x}_{n}$ , у которого интересующий признак положен равным $u$ .

Примеры

Рассмотрим задачу BikeSharing [2], в которой прогнозируется число арендованных велосипедов по характеристикам дня (дата, температура, влажность и т.д.). График частичной зависимости для этой задачи показан на рисунке ниже для вещественных признаков слева, а для категориального признака (season) справа [3]:

По графикам видно, что велосипедов арендуется меньше при низкой и высокой температуре. Снижает число аренд высокая влажность и скорость ветра. Это согласуется с общей логикой и свидетельствует в пользу того, что модель построена верно. Хотя зависимость от сезона оказалась не настолько ярко выражена.

Зависимость от двух признаков

Можно строить PDP-график зависимости сразу для пары признаков. В этом случае он будет представлять собой тепловую карту (heatmap) изменений целевого значения от двух признаков, на которой будет видно их совместное воздействие на прогноз, как показано ниже на графике справа [4]:

Зависимость такого рода позволит выявить более сложные виды совместного воздействия двух признаков на прогнозы модели.

Преимущества и недостатки метода

График частичной зависимости PDP интуитивен и его легко реализовать. Также эту зависимость можно строить не для одного, а сразу для двух признаков.

PDP - это метод глобальной интерпретации модели (без привязки к определённому объекту), показывающий общую зависимость прогнозов модели от признака. С другой стороны, вычисление PDP вычислительно трудоёмко - приходится проводить усреднение по всем объектам выборки для каждого значения признака (для больших выборок лучше считать приближённо по подвыборке). Также из-за усреднения по всем объектам мы можем потерять часть зависимостей.

Например, если для половины объектов признак положительно влияет на прогноз, а для другой половины - отрицательно, то при усреднении получим отсутствие связи!

В PDP предполагается, что интересующий признак $u$ и остальные признаки $\mathbf{v}$ независимы, поскольку при построении графика значение интересующего признака фиксируется, а остальные признаки берутся из выборки независимо. Если в действительности признаки сильно зависимы, это будет приводить к появлению малореалистичных объектов.

Например, при анализе данных пациентов больницы можно строить PDP для признака "рост". При этом скоррелированный признак "вес" будет браться независимо от роста, что будет приводить к появлению нереалистичных пациентов с детским ростом и взрослым весом.

График индивидуальных условных ожиданий

График индивидуальных условных ожиданий (Individual Conditional Expectation, ICE [5]) показывает зависимость отклика от интересующего признака, не усредняя по остальным объектам, а для каждого объекта в отдельности. Разобьём, как и раньше, вектор признаков $\mathbf{x}$ на интересующий признак $u$ и все остальные признаки $\mathbf{v}$ . ICE график представляет собой совокупность графиков зависимостей прогноза от признака для каждого объекта валидационной выборки $n=1,2,...N$ :

\left\{ g_{un}\left(u\right)=f\left(u,v_{n}\right)\right\} _{n}

и показан для задачи BikeSharing на рисунке ниже [6]:

График ICE даёт более детальную картину: он показывает влияние интересующего признака на прогноз по каждому объекту в отдельности, что позволяет увидеть, например, ситуацию, когда для половины объектов признак имеет положительное влияние, а для половины - отрицательное.

Недостатком подхода является перегруженная графиками иллюстрация, на которой сложно выделить основные тенденции, поэтому часто строят графики сдвинутых индивидуальных условных ожиданий (Centered ICE plot, c-ICE) по объектам, центрируя, чтобы все графики выходили из одной точки:

\left\{ g_{un}\left(u\right)=f\left(u,\mathbf{v}_{n}\right)-f\left(u_{0},\mathbf{v}_{n}\right)\right\} _{n},\quad u_{0}-\text{референсное значение (гиперпараметр),}

после чего отдельным цветом можно отобразить усреднённую по объектам зависимость для простоты визуализации, как показано ниже [6]:

Усреднённая зависимость на графике (жёлтая), с точностью до сдвига, будет PDP-графиком.

Стоит отметить, что как графики ICE и c-ICE, точно так же, как PDP, опираются на предположение о независимости признака $u$ от всех остальных, поскольку используют сгенерированные объекты, где признаки меняются независимо от друга. Это может приводить использованию в вычислениях малореалистичных объектов.

Условный график

Условный график (marginal plot, M-plot [7]) лишён недостатка PDP и ICE графиков, состоящего в усреднении по несуществующим малореальным объектам за счёт того, что там при каждом значении признака $u$ происходит усреднение не по безусловному распределению оставшихся признаков $P\left(v\right)$ , а по условному $P\left(v|\mathbf{u}\right)$ .

Приведём иллюстрацию, на которой слева показано безусловное распределение $P\left(x^2\right)$ , а справа - условное распределение $P\left(x^2|x^1\right)$ [7]:

Формулой условный график запишется следующим образом:

g_{u}\left(u\right)=\frac{1}{\left|N\left(k\right)\right|}\sum_{n:\mathbf{x}_{n}\in N\left(k\right)}f\left(u_{k},\mathbf{v}_{n}\right),

где анализируемый признак $u$ разбивается на полуинтервалы $\left(u_{k-1},u_{k}\right], k=1,2,...K$ , а $N\left(k\right)$ - множество объектов, для которых значение признака $u$ попало в $k$ -й интервал, $\left|N\left(k\right)\right|$ обозначает мощность (число элементов) этого множества.

На условном графике, в отличие от графиков PDP и ICE, усреднение производится только по реалистичным объектам, однако при анализе признака, сильно связанного с другим признаком, график покажет совокупное влияние обоих скореллированных признаков, а не чистый эффект одного из них.

В примере с пациентами больницы это будет совокупное влияние и роста, и веса пациента, а не только роста (или только веса) в чистом виде.

График аккумулированных локальных эффектов

График аккумулированных локальных эффектов (Accumulated Local Effects, ALE [8]) повторяет методологию условного M-графика, но лишён недостатка, состоящего в том, что если два признака сильно скоррелированы, то будет показан совокупный эффект этих признаков, а не чистый эффект одного из них. ALE-график покажет именно чистый эффект интересующего признака. При этом усреднение будет производиться только по реалистичным объектам.

Формула для расчёта графика аккумулированных локальных эффектов следующая:

g_{u}\left(u\right)=\sum_{k=1}^{K}\frac{1}{\left|N\left(k\right)\right|}\sum_{n:~\mathbf{x}_{n}\in N\left(k\right)}\left[f\left(u_{k}, \mathbf{v}_{n}\right)-f\left(u_{k-1},\mathbf{v}_{n}\right)\right],

где обозначения такие же, как для условного графика M-plot.

Динамика зависимости от значения признака складывается из малых локальных изменений в областях полуинтервала значений признака $u\in\left(u_{k-1},u_{k}\right]$ . Формула показывает изменения прогноза только за счёт интересующего признака $u$ , когда прочие признаки не влияют, поскольку по ним происходит локальное усреднение вокруг значений признака, который мы анализируем.

Итоговый ALE-график - это аккумулированная сумма таких малых изменений по аналогии того как разность значений функции в двух точках - это интеграл от её производной между этими точками. Пример ALE-графика для задачи BikeSharing показан ниже [7]:

Зависимость от двух признаков

Как и для PDP-графика, ALE-график можно строить сразу для пары признаков. В этом случае он будет представлять собой тепловую карту (heatmap) изменений целевого значения от двух признаков, на которой будет видно их совместное воздействие на прогноз.

Детальнее о PDP-графике можно прочитать в [3], о ICE-графике - в [4], а об условном и ALE-графике - в [7].

С кодом, реализующим построение PDP- и ICE-графиков с использованием библиотеки sklearn, можно ознакомиться в [4]. Построение PDP- и ALE-графиков реализовано в библиотеках PiML [9] и effector [10].

Зависимость прогноза от признаков

График частичной зависимости​

Определение​

Примеры​

Зависимость от двух признаков​

Преимущества и недостатки метода​

График индивидуальных условных ожиданий​

Условный график​

График аккумулированных локальных эффектов​

Литература​

График частичной зависимости

Определение

Примеры

Зависимость от двух признаков

Преимущества и недостатки метода

График индивидуальных условных ожиданий

Условный график

График аккумулированных локальных эффектов

Литература