Контрфактические объяснения
Один из способов проинтерпретировать тот или иной прогноз - это задаться вопросом: а какие минимальные изменения нужно произвести в прогнозируемом объекте, чтобы получить другой (нужный нам) прогноз?
-
Пример 1. Рассмотрим модель, прогнозирующую, за сколько можно сдать квартиру на рынке по её характеристикам. Предположим, мы оценили эту модель по обучающей выборке, и для нашей квартиры модель выдаёт 50000 руб./мес. Можно задаться вопросом - какие минимальные изменения в квартире нужно произвести, чтобы сдавать её за 70000 руб./мес? Нас, конечно, будет интересовать поиск в пространстве только тех параметров, которые можно изменить - характер ремонта, наличие бытовой техники и мебели, условия сдачи и т.д.
-
Пример 2. Рассмотрим модель, прогнозирующую, можно ли клиенту выдать кредит или нельзя. Допустим, она выдаёт прогноз, что нельзя. Тогда можно задаться вопросом: а какие минимальные изм енения в характеристиках клиента должны случиться, чтобы кредит ему всё-таки одобрили? Например, иметь стаж работы на год больше или получать зарплату на 10 процентов выше.
Ответы на подобные вопросы даёт метод контрфактических объяснений (counterfactual explanations). Контрфактическое объяснение для - это такой объект , который
-
максимально похож на (отличается в минимальном числе признаков на минимальную величину),
-
но в то же время обладает требуемым откликом .
Находить контрфактические объяснения можно, решая следующую оптимизационную задачу [1]:
Из условий Каруша-Куна-Таккера [2] можно показать, что она эквивалентна следующей задаче:
где - расстояние между объектами, а и связаны между собой некоторым убывающим преобразованием .
Таким образом, контрфактическое объяснение получается в результате балансирования двух требований:
-
прогноз должен минимально отличаться от требуемого про гноза ;
-
само объяснение должно быть максимально похоже на исходный объект .
Какое именно свойство для нас важнее контролируется гиперпараметрами и .
В качестве в [1] предлагается брать
поскольку модули отклонений признаков (а не квадраты отклонений) будут поощрять нахождение таких , которые бы отличались от в минимальном числе признаков, оставляя при этом оставшиеся признаки такими, какими они были, что упрощает интерпретируемость. Нормировка на (mean absolute deviation) приводит признаки к одинаковому масштабу, делая их равнозначными при сравнении. Хотя можно использовать и другие методы нормализации признаков.
В [3] контрфактические объяснения предлагается находить, накладывая дополнительные штрафы:
-
за число отличающихся признаков в и (чтобы упростить интерпретацию);
-
за несогласованность с обучающей выборкой (по расстоянию от до ближайшего соседа из обучающей выборки).
Более детально ознакомиться с контрафактическими объяснениями вы можете в [4].