Перейти к основному содержимому

Свойства проекций на главные компоненты

Метод главных компонент (Principal Component Analysis, PCA) порождает новые признаки zRK\boldsymbol{z}\in\mathbb{R}^K, отвечающие проекциям объекта x\boldsymbol{x} на первые KK главных компонент. Докажем, что полученные признаки обладают следующими свойствами:

  • обладают нулевым средним;

  • нескореллированы друг с другом;

  • обладают свойством линейной независимости.

Утверждение: центрированность проекций

Если исходные данные {xn}n=1N\{\boldsymbol{x}_n\}_{n=1}^N были центрированы (E[x]=0\mathbb{E}[\boldsymbol{x}] = \boldsymbol{0}), то математическое ожидание проекции данных на любую главную компоненту также равно нулю.

Доказательство:

Пусть x\boldsymbol{x} — случайный вектор исходных признаков. Рассмотрим значение ii-го нового признака (проекции) ziz^i, которое вычисляется как скалярное произведение вектора объекта на ii-ю главную компоненту vi\boldsymbol{v}_i:

zi=viTxz^i = \boldsymbol{v}_i^T \boldsymbol{x}

Вычислим математическое ожидание полученной величины и воспользуемся линейностью математического ожидания:

E[zi]=E[viTx]=viTE[x]=viT0=0\mathbb{E}[z^i] = \mathbb{E}[\boldsymbol{v}_i^T \boldsymbol{x}]=\boldsymbol{v}_i^T \mathbb{E}[\boldsymbol{x}]= \boldsymbol{v}_i^T \cdot \boldsymbol{0} = 0

Утверждение: нескоррелированность проекций

Проекции данных на различные главные компоненты нескоррелированы друг с другом.

Доказательство:

Пусть ziz_i и zjz_j — значения новых признаков (проекций) для центрированных данных. Тогда их ковариация:

cov(zi,zj)=E[(viT(xμ))(vjT(xμ))]=viTΣvj=viTλjvj=λj(viTvj)\begin{aligned} \text{cov}(z_i, z_j) &= \mathbb{E}[(\boldsymbol{v}_i^T(\boldsymbol{x}-\boldsymbol{\mu}))(\boldsymbol{v}_j^T(\boldsymbol{x}-\boldsymbol{\mu}))] \\ &= \boldsymbol{v}_i^T \Sigma \boldsymbol{v}_j = \boldsymbol{v}_i^T \lambda_j \boldsymbol{v}_j = \lambda_j (\boldsymbol{v}_i^T \boldsymbol{v}_j) \end{aligned}

Так как собственные векторы симметричной матрицы ортогональны, viTvj=0\boldsymbol{v}_i^T \boldsymbol{v}_j = 0, ковариация, а, следовательно и корреляция, равна 0.

\square

Утверждение: линейная независимость проекций

Векторы новых признаков {zk}k=1D\{\boldsymbol{z}_k\}_{k=1}^D линейно независимы, если все собственные числа λi>0\lambda_i > 0, i=1,2,...Di=1,2,...D.

Доказательство:

Пусть ZZ — матрица проекций размера N×DN \times D, где элемент ZnkZ_{nk} — проекция nn-го объекта на kk-ю главную компоненту. Рассмотрим матрицу G=1NZTZG = \frac{1}{N} Z^T Z. Её элементы вычисляются как:

Gij=1Nn=1NZniZnj=1Nn=1N(viT(xnμ))((xnμ)Tvj)G_{ij} = \frac{1}{N} \sum_{n=1}^N Z_{ni} Z_{nj} = \frac{1}{N} \sum_{n=1}^N (\boldsymbol{v}_i^T (\boldsymbol{x}_n - \boldsymbol{\mu})) ((\boldsymbol{x}_n - \boldsymbol{\mu})^T \boldsymbol{v}_j)

Вынося векторы за знак суммы:

Gij=viT(1Nn=1N(xnμ)(xnμ)T)vj=viTΣvjG_{ij} = \boldsymbol{v}_i^T \left( \frac{1}{N} \sum_{n=1}^N (\boldsymbol{x}_n - \boldsymbol{\mu}) (\boldsymbol{x}_n - \boldsymbol{\mu})^T \right) \boldsymbol{v}_j = \boldsymbol{v}_i^T \Sigma \boldsymbol{v}_j

Как было доказано выше, Gij=λiδijG_{ij} = \lambda_i \delta_{ij}. Таким образом, GG — диагональная матрица:

1NZTZ=(λ1000λ2000λD)\frac{1}{N} Z^T Z = \begin{pmatrix} \lambda_1 & 0 & \dots & 0 \\ 0 & \lambda_2 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \lambda_D \end{pmatrix}

Если все λk>0\lambda_k > 0, то det(1NZTZ)=λk0\text{det}(\frac{1}{N} Z^T Z) = \prod \lambda_k \neq 0, следовательно, матрица ZTZZ^T Z имеет полный ранг DD. Согласно свойствам ранга произведения матриц, rank(ZTZ)=rank(Z)\text{rank}(Z^T Z) = \text{rank}(Z). Значит, rank(Z)=D\text{rank}(Z) = D, что означает линейную независимость столбцов матрицы ZZ (векторов новых признаков).

\square