Перейти к основному содержимому

Интерпретация линейной регрессии

Предположения метода

Линейная регрессия строит прогноз по формуле:

y^(x)=w0+w1x1+w2x2+...+wDxD\widehat{y}(\mathbf{x}) = w_{0}+w_{1}x^{1}+w_{2}x^{2}+...+w_{D}x^{D}

Модель использует достаточно сильные предположения о данных:

  • каждый признак xix^{i} влияет на отклик линейно со своим фиксированным весом wi\mathbf{w}_{i}

  • характер этого влияния не зависит от значений остальных признаков

Зато настроенная модель проста и легко поддаётся интерпретации.

Снижение числа признаков

Стоит отметить, что даже такая простая модель, как линейная регрессия, может потерять свойство глобальной интерпретируемости, если число признаков велико, как происходит, например, при работе с текстовыми данными. Мы можем понять, как каждый отдельно взятый признак влияет на прогноз, но не можем мысленно предсказать прогноз из-за одновременного влияния большого числа других признаков.

В этом случае рекомендуется настраивать линейную регрессию с сильной L1L_1 регуляризацией, которая способна отбирать в модель только те признаки, которые сильнее всего влияют на отклик.

Варьируя силу регуляризации (множитель при регуляризаторе) можно заставить модель использовать нужное число признаков.

Альтернативно можно использовать OMP-регрессию, отбирая небольшое число самых значимых признаков.

Интерпретация весов

Веса линейной регрессии можно интерпретировать следующим образом:

  • Знак веса wiw_i определяет направленность влияния ii-го признака на отклик. Признак с положительным весом положительно влияет на отклик, а с отрицательным - отрицательно.

  • Величина веса wiw_i определяет степень влияния: увеличение xix^i на единицу приводит к увеличению yy на wiw_i. В случае, если xix^i бинарный признак (присутствие определённой характеристики), то wiw_i показывает, насколько увеличился бы прогноз, если бы признак был активен. Например, если прогнозируем, за какое время спортсмен пробежит марафон, а xi=I[была травма]x^i=\mathbb{I}[\text{была травма}], то wiw_i покажет, насколько изменится время забега при наличии травмы у спортсмена. Если категориальный признак (например, у какого тренера учился спортсмен) кодируется one-hot кодированием, то полезно одну из категорий назначить референсной и закодировать вектором из нулей [0,0,...,0] (например, категорию, что спортсмен учился без тренера). Тогда вес при каждом бинарном признаке one-hot кодирования показывает вклад методики обучения соответствующего тренера в результат забега.

  • Модуль веса при признаке wi|w_i| оценивает степень влияния признака на прогноз. Однако перед применением этой методики все признаки необходимо привести к единой шкале (нормализовать). Иначе уменьшение признака в K раз и перенастройка модели приведут к увеличению веса при нём в K раз, но это не будет означать, что признак стал в K раз более важным!

  • В статистике существует асимптотическая оценка стандартного отклонения σi\sigma_i для оценки веса wiw_i. Это позволяет визуализировать для каждого признака не только wiw_i, но и его стандартное отклонение. Если интервал (3σi+wi,wi+3σi)(-3\sigma_i+w_i, w_i+3\sigma_i) покрывает ноль, то можно говорить о статистически незначимом влиянии ii-го признака на отклик. Для этого же можно использовать и tt-тест, основанный на t-статистики, равной wi/σiw_i/\sigma_i. Можно на графике откладывать wiw_i и соответствующий 95% интервал, как показано на рисунке ниже (источник) для задачи BikeSharing. Если интервал не покрывает ноль, то влияние признака на целевое значение статистически незначимое. Значимость влияния признака на отклик важна в таких задачах, как определение оптимального лечения заболевания. Если признак представляет собой объём выпитого лекарства, а выясниться, что влияние статистически незначимое, то нужно подбирать другие методы лечения!

    weight-plot.png

Анализ аддитивных эффектов

Величина wixiw_{i}x^{i} характеризует аддитивный эффект, который i-й признак оказывает на прогноз для вещественного и бинарного признака. Перед использованием необходимо центрировать каждый признак, вычтя из него его среднее по всей выборке.

Рассмотрим задачу регрессии BikeSharing, в которой оценивается число сданных напрокат велосипедов в разные дни. Для каждого дня известны его дата, день недели, погода, температура и другие параметры. Используя "ящики с усами" (boxplots), можно визуализировать распределения эффектов каждого признака для всех прогнозов. На этом же графике можно отложить частные аддитивные эффекты для отдельного прогноза (выделено красным), как показано на рисунке ниже (источник):

effect-plot.png

По графику видно, что в целом на аренду велосипедов сильнее всего в плюс влияло время с начала наблюдений (days_since_2011), так как популярность сервиса росла со временем, а также температура дня (temp). А сильнее всего в минус влияла влажность воздуха (hum).

Для аномально низкого прогноза в интересующий день аддитивные эффекты обозначены красными крестиками. Из графика видно, что малый прогноз для выбранного наблюдения основывается на малой температуре и тем, что рассматривается аренда в начале наблюдений, когда сервис аренды велосипедов еще не был так популярен.