Веса линейной регрессии находятся из принципа минимизации наименьших квадратов (МНК, ordinary least squares, OLS):
L(w)=n=1∑N(xnTw−yn)2→wmin
Этот критерий по w является выпуклым как суперпозиция линейной и выпуклой функции.
Тип векторов
Все вектора в этом разделе, как и глобально в книге, будем считать векторами-столбцами (а не строками). Это важно для понимания аналитических выкладок.
Будет ли суперпозиция двух выпуклых функций выпуклой?
Суперпозиция двух выпуклых функций может быть выпуклой, например, f(g(x))=(∣x∣+1)2 для
g(x)=∣x∣+1,f(x)=x2
Но может быть и невыпуклой, как f(g(x))=(∣x∣−1)2 для
g(x)=∣x∣−1,f(x)=x2
Однако суперпозиция линейной и выпуклой функции всегда выпукла - докажите самостоятельно.
Поэтому не только необходимым, но и достаточным условием минимума потерь будет покомпонентное равенство нулю градиента функции потерь. Причем, также в силу выпуклости функции, будет гарантия, что найденный минимум будет глобальным минимумом функционала, т.е. обеспечивать наименьшее значение функции потерь среди всех возможных.
Мы говорим про градиент, а не про производную, поскольку при дифференцировании скалярной функции L(w)∈R по вектору w∈RD+1 получим вектор частных производных по каждой компоненте вектора w:
Перепишем условие, используя обозначения для матрицы объекты-признаки X∈RN×D и вектора откликов Y∈RN:
XTXw=XTY
Откуда получаем аналитическое итоговое решение для линейной регрессии:
w=(XTX)−1XTY
Обратим внимание, что решение не будет существовать, если матрица XTX вырождена, что эквивалентно тому, что ранг матрицыrg(XTX)=rg(X)<D.
Задача
Докажите, что rg(XTX)=rg(X) для любой матрицы X.
Последнее, в свою очередь, означает линейную зависимость между признаками, т.е. что найдётся такой набор весов α=[α0,α1,...αD], что
xTα=0∀x(выполненодлялюбыхвекторовпризнаковx)
В этом случае один из признаков лишний, поскольку может быть получен как линейная комбинация других признаков, а само решение неоднозначно, поскольку если w^ - решение, то и w+kα - тоже решение для любого k∈R, поскольку
y^(x)=xTw^=xTw^+0=xTw^+kxTα=xT(w+kα)
Следовательно, если матрица XTX необратима и аналитическая оценка весов не определена, то нужно уменьшить число признаков либо через отбор признаков, либо через снижение размерности.