Аналитическое решение для линейной регрессии
Веса линейной регрессии находятся из принципа минимизации наименьших квадратов (МНК, ordinary least squares, OLS):
Этот критерий по является выпуклым как суперпозиция линейной и выпуклой функции.
Все вектора в этом разделе, как и глобально в книге, будем считать векторами-столбцами (а не строками). Это важно для понимания аналитических выкладок.
Будет ли суперпозиция двух выпуклых функций выпуклой?
Суперпозиция двух выпуклых функций может и не быть выпуклой, например, для
Однако суперпозиция линейной и выпуклой функции всегда выпукла - докажите самостоятельно.
Поэтому не только необходимым, но и достаточным условием минимума потерь будет покомпонентное равенство нулю градиента функции потерь. Причем, также в силу выпуклости функции, будет гарантия, что найденный минимум будет глобальным минимумом функционала, т.е. обеспечивать наименьшее значение функции потерь среди всех возможных.
Мы говорим про градиент, а не про производную, поскольку при дифференцировании скалярной функции по вектору получим вектор частных производных по каждой компоненте вектора :
Найдем оптимальные веса аналитически. Поскольку функция потерь является выпуклой по весам, то не только необходимым, но и достаточным условием оптимальности будет покомпонентное равенство нулю градиента функции потерь:
Перепишем условие, используя обозначения для матрицы объекты-признаки и вектора откликов :
Откуда получаем аналитическое итоговое решение для линейной регрессии:
Обратим внимание, что решение не будет существов ать, если матрица вырождена, что эквивалентно тому, что ранг матрицы .
Докажите, что для любой матрицы .
Последнее, в свою очередь, означает линейную зависимость между признаками, т.е. что найдётся такой набор весов , что
В этом случае один из признаков лишний, поскольку может быть получен как линейная комбинация других признаков, а само решение неоднозначно, поскольку если - решение, то и - тоже решение для любого , поскольку
Следовательно, если матрица необратима и аналитическая оценка весов не определена, то нужно уменьшить число признаков через отбор признаков/снижение размерности.