Интерпретация линейной регрессии
Предположения метода
Линейная регрессия строит прогноз по формуле:
Модель использует достаточно сильные предположения о данных:
-
каждый признак влияет на отклик линейно со своим фиксированным весом
-
характер этого влияния не зависит от значений остальных признаков
Зато настроенная модель проста и легко поддаётся интерпретации.
Снижение числа признаков
Стоит отметить, что даже такая простая модель, как линейная регрессия, может потерять свойство глобальной интерпретируемости, если число признаков велико, как происходит, например, при работе с текстовыми данными. Мы можем понять, как каждый отдельно взятый признак влияет на прогноз, но не можем мысленно предсказать прогноз из-за одновременного влияния большого числа других признаков.
В этом случае рекомендуется настраивать линейную регрессию с сильной регуляризацией, которая способна отбирать в модель только те признаки, которые сильнее всего влияют на отклик.
Варьируя силу регуляризации (множитель при регуляризаторе) можно заставить модель использовать нужное число признаков.
Альтернативно можно использовать OMP-регрессию, отбирая небольшое число самых значимых признаков.
Интерпретация весов
Веса линейной регрессии можно интерпретировать следующим образом:
-
Знак веса определяет направленность влияния -го признака на отклик. Признак с положительным весом положительно влияет на отклик, а с отрицательным - отрицательно.
-
Величина веса определяет степень влияния: увеличение на единицу приводит к увеличению на . В случае, если бинарный признак (присутствие определённой характеристики), то показывает, насколько увеличился бы прогноз, если бы признак был активен. Например, если прогнозируем, за какое время спортсмен пробежит марафон, а , то покажет, насколько изменится время забега при наличии травмы у спортсмена. Если категориальный признак (например, у какого тренера учился спортсмен) кодируется one-hot кодированием, то полезно одну из категорий назначить референсной и закодировать вектором из нулей [0,0,...,0] (например, категорию, что спортсмен учился без тренера). Тогда вес при каждом бинарном признаке one-hot кодирования показывает вклад методики обучения соответствующего тренера в результат забега.
-
Модуль веса при признаке оценивает степень влияния признака на прогноз. Однако перед применением этой методики все признаки необходимо привести к единой шкале (нормализовать). Иначе уменьшение признака в K раз и перенастройка модели приведут к увеличению веса при нём в K раз, но это не будет означать, что признак стал в K раз более важным!
-
В статистике существует асимптотическая оценка стандартного отклонения для оценки веса . Это позволяет визуализировать для каждого признака не только , но и его стандартное отклонение. Если интервал покрывает ноль, то можно говорить о статистически незначимом влияни и -го признака на отклик. Для этого же можно использовать и -тест, основанный на t-статистики, равной . Можно на графике откладывать и соответствующий 95% интервал, как показано на рисунке ниже (источник) для задачи BikeSharing. Если интервал не покрывает ноль, то влияние признака на целевое значение статистически незначимое. Значимость влияния признака на отклик важна в таких задачах, как определение оптимального лечения заболевания. Если признак представляет собой объём выпитого лекарства, а выясниться, что влияние статистически незначимое, то нужно подбирать другие методы лечения!
Анализ аддитивных эффектов
Величина характеризует аддитивный эффект, который i-й признак оказывает на прогноз для вещественного и бинарного признака. Перед использованием необходимо центрировать каждый признак, вычтя из него его среднее по всей выборке.
Рассмотрим задачу регрессии BikeSharing, в которой оценивается число сданных напрокат велосипедов в разные дни. Для каждого дня известны его дата, день недели, погода, температура и другие параметры. Используя "ящики с усами" (boxplots), можно визуализировать распределения эффектов каждого признака для всех прогнозов. На этом же графике можно отложить частные аддитивные эффекты для отдельного прогноза (выделено красным), как показано на рисунке ниже (источник):
По графику видно, что в целом на аренду велосипедов сильнее всего в плюс влияло время с начала наблюдений (days_since_2011), так как популярность сервиса росла со временем, а также температура дня (temp). А сильнее всего в минус влияла влажность воздуха (hum).
Для аномально низкого прогноза в интересующий день аддитивные эффекты обозначены красными крестиками. Из графика видно, что малый прогноз для выбранного наблюдения основывается на малой температуре и тем, что рассматривается аренда в начале наблюдений, когда сервис аренды велосипедов еще не был так популярен.