Первая главная компонента (first principal component) — это направление в пространстве исходных признаков, задаваемое вектором v1 единичной нормы (∥v1∥=1), такое, что проекция центр ированных данных на это направление обладает максимально возможной дисперсией.
Утверждение: первая главная компонента
Вектор v1, максимизирующий дисперсию проекции при ∥v1∥=1, является собственным вектором матрицы Σ, отвечающим её максимальному собственному числу λ1.
Доказательство:
Для поиска первой главной компоненты v1 необходимо решить задачу на условный экстремум. Мы хотим найти вектор, который дает проекцию с максимальной дисперсией, сохраняя при этом единичную длину вектора, чтобы масштаб не влиял на результат.
Формально задача записывается следующим образом:
{vTΣv→maxvvTv=1
Для решения этой задачи используется метод множителей Лагранжа[1]. Мы переходим от поиска экстремума функции при ограничении к поиску стационарных точек лагранжиана:
L(v,λ)=vTΣv−λ(vTv−1)
где λ — множитель Лагранжа. Необходимым условием экстремума является равенство нулю частной производной по v:
∂v∂L=∂v∂(vTΣv)−∂v∂(λvTv)=0
Используя правила матричного дифференцирования (∂a∂aTAa=2Aa для симметричной матрицы A), получаем:
2Σv−2λv=0⟹Σv=λv
Следовательно, v является одним из собственных векторов матрицы Σ.
Дисперсия при этом равна
D(z)=vTΣv=vTλv=λvTv=λ
Поскольку нас интересует максимизация дисперсии, v следует выбрать собственным вектором v1 матрицы Σ, отвечающим максимальному собственному значению λ1.
□
Спектральная теорема
Так как Σ∈RD×D — симметричная вещественная ма трица, то согласно спектральной теореме[2], её собственные значения вещественны, а собственные вектора образуют ортонормированный базис. То есть она обладает набором из D собственных векторов, которые ортогональны друг другу.
Обозначим за v1,v2,...vD собственные вектора Σ, отвечающие собственным значениям λ1≥λ2≥λD≥0. Все собственные значения неотрицательны, поскольку по свойству дисперсии, доказанному выше,
i-я главная компонента (i=1,2,...D — это направление, задаваемое вектором vM+1 единичной нормы, которое
обеспечивает максимум дисперсии проекций данных на неё;
ортогональна всем ранее найденным компонентам v1,…,vi−1.
Утверждение: (K+1) главная компонента
(K+1)-я главная компонента является собственным вектором Σ, отвечающим (K+1)-му по величине собственному числу.
Доказательство:
Докажем утверждение по индукции. Как было показано выше, при K=0 утверждение выполнено. Допустим, уже найдены K главных компонент v1,…,vK, отвечающие собственным векторам матрицы Σ с собственными значениями λ1≥λ2≥λM. По спектральной теореме они будут ортогональны друг другу. Докажем верность утверждения для (K+1)-й компоненты.
Математически оптимизационная задача для (K+1)-й главной компоненты записывается следующим образом:
⎩⎨⎧vTΣv→maxvvTv=1vTvj=0,j=1,…,K
Решать задачу будем методом множителей Лагранжа. Соответствующий лагранжиан равен
L(v,λ,η1,…,ηK)=vTΣv−λ(vTv−1)−j=1∑KηjvTvj
с двойственными переменными λ,η1,…,ηK, отвечающими соответствующим ограничениям.
Запишем условие стационарности лагранжиана по v:
∂v∂L=2Σv−2λv−j=1∑Kηjvj=0
Умножим полученное уравнение слева на viT, i≤K (одну из ранее найденных главных компонент):
2viTΣv−2λviTv−j=1∑Kηj(viTvj)=0
Поскольку viTvj=I{i=j}, получим
2viTΣv−2λviTv−ηi=0
В силу симметричности матрицы Σ и ортогональности компонент:
viTΣv=(Σvi)Tv=λiviTv=0
Значит, все ηi=0, и мы снова приходим к уравнению на собственные числа Σv=λv.
Чтобы максимизировать дисперсию D(vTx)=λ, соблюдая при этом ортогональность ранее найденным главным компонентам v1,…,vK, мы должны выбрать собственный вектор vK+1 матрицы Σ, отвечающий (K+1)-му по величине собственному значению λK+1. Ортогональность при этом обеспечивается тем, что собственные векторы образуют ортонормированный базис согласно спектральной теореме.
□
Значение каждой главной компоненты
Последовательно применяя полученный результат, получим, что k-я главная компонента равна собственному вектору vk матрицы Σ, отвечающему k-му собственному вектору.
Утверждение: дисперсия проекций на компоненту
Дисперсия проекции данных на k-ю главную компоненту равна соответствующему собственному числу λk.
Доказательство:
Для k-й компоненты vk выполняется Σvk=λkvk. Тогда: