Перейти к основному содержимому

Глобальная оптимальность главных компонент

Ранее мы выводили каждую глобальную компоненту, как направление, обеспечивающее максимизацию дисперсии проекций не неё при условии ортогональности предыдущим главным компонентам. Таким образом, каждая следующая главная компонента вводилась из соображений локальной оптимальности.

Оказывается, полученные первые KK главных компонент обладают свойством и глобальной оптимальности - именно проекции на эти KK направлений максимизируют суммарную дисперсию проекций:

Dtotal=D(z1)+D(z2)++D(zK)\mathbb{D}_{total} = \mathbb{D}(z^1) + \mathbb{D}(z^2) + \dots + \mathbb{D}(z^K)

Для того, чтобы это показать, докажем вначале вспомогательное утверждение.

Утверждение: связь дисперсии и квадрата нормы

Для центрированных данных (μ=0\boldsymbol{\mu} = \boldsymbol{0}) суммарная дисперсия (total variance) вектора новых признаков zRK\boldsymbol{z} \in \mathbb{R}^K совпадает с математическим ожиданием квадрата его евклидовой нормы:

Dtotal=E[z2]\mathbb{D}_{total} = \mathbb{E}[\|\boldsymbol{z}\|^2]

Доказательство:

Пусть z=(z1,z2,,zK)T\boldsymbol{z} = (z^1, z^2, \dots, z^K)^T — вектор проекций объекта на первые KK главных компонент. По определению, суммарная дисперсия набора признаков равна сумме их индивидуальных дисперсий. Применим формулу дисперсии D(X)=E[X2](E[X])2\mathbb{D}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 для каждой компоненты:

Dtotal=i=1KD(zi)=i=1K(E[(zi)2](E[zi])2)\mathbb{D}_{total} = \sum_{i=1}^K \mathbb{D}(z^i) = \sum_{i=1}^K \left( \mathbb{E}[(z^i)^2] - (\mathbb{E}[z^i])^2 \right)

Поскольку ранее было доказано, что для центрированных исходных данных математическое ожидание каждой проекции E[zi]=0\mathbb{E}[z^i] = 0, то второе слагаемое в каждой скобке обращается в ноль. Тогда выражение упрощается, и, воспользовавшись линейностью математического ожидания, получим:

Dtotal=i=1KE[(zi)2]=E[i=1K(zi)2]=E[z2]\mathbb{D}_{total} = \sum_{i=1}^K \mathbb{E}[(z^i)^2] = \mathbb{E}\left[ \sum_{i=1}^K (z^i)^2 \right] = \mathbb{E}[\|\boldsymbol{z}\|^2]

\square

Геометрический смысл

Это равенство означает, что суммарный разброс данных в методе PCA совпадает со средним квадратом расстояний от спроецированных точек до начала координат в подпространстве VKV_K, являющимся линейной оболочкой первых KK главных компонент.

Утверждение: оптимальность подпространства

Подпространство, натянутое на первые KK главных компонент, обладает максимальной суммарной дисперсией среди всех возможных подпространств размерности KK. При этом для центрированных данных эта суммарная дисперсия равна математическому ожиданию квадрата нормы вектора проекций:

Dtotal=E[z2]=i=1Kλi\mathbb{D}_{total} = \mathbb{E}[\|\boldsymbol{z}\|^2] = \sum_{i=1}^K \lambda_i

Доказательство:

Пусть {ui}i=1K\{\boldsymbol{u}_i\}_{i=1}^K — произвольный ортонормированный базис некоторого KK-мерного подпространства UU. Как мы выше показывали, дисперсия проекций на отдельный вектор ui\boldsymbol{u}_i равна uiTΣui\boldsymbol{u}_i^T \Sigma \boldsymbol{u}_i, следовательно суммарная дисперсия проекций на это подпространство равна:

Dtotal(U)=i=1KuiTΣui\mathbb{D}_{total}(U) = \sum_{i=1}^K \boldsymbol{u}_i^T \Sigma \boldsymbol{u}_i

Воспользуемся спектральным разложением ковариационной матрицы Σ=j=1DλjvjvjT\Sigma = \sum_{j=1}^D \lambda_j \boldsymbol{v}_j \boldsymbol{v}_j^T, где vj\boldsymbol{v}_j — её собственные векторы, а λ1λ2λD\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_D — упорядоченные собственные числа. Подставим это разложение в формулу дисперсии:

Dtotal(U)=i=1KuiT(j=1DλjvjvjT)ui\mathbb{D}_{total}(U) = \sum_{i=1}^K \boldsymbol{u}_i^T \left( \sum_{j=1}^D \lambda_j \boldsymbol{v}_j \boldsymbol{v}_j^T \right) \boldsymbol{u}_i =i=1Kj=1Dλj(uiTvj)2=j=1Dλj(i=1K(uiTvj)2)=j=1Dλjcj,= \sum_{i=1}^K \sum_{j=1}^D \lambda_j (\boldsymbol{u}_i^T \boldsymbol{v}_j)^2 = \sum_{j=1}^D \lambda_j \left( \sum_{i=1}^K (\boldsymbol{u}_i^T \boldsymbol{v}_j)^2 \right) = \sum_{j=1}^D \lambda_jc_j,

где мы использовали обозначение cj=i=1K(uiTvj)2c_j = \sum_{i=1}^K (\boldsymbol{u}_i^T \boldsymbol{v}_j)^2.

Заметим, что cjc_j представляет собой квадрат длины проекции единичного вектора vj\boldsymbol{v}_j на подпространство UU, следовательно, 0cj10 \le c_j \le 1. Кроме того, сумма всех cjc_j (по всем главным компонентам) равна:

j=1Dcj=j=1Di=1K(uiTvj)2=i=1Kj=1D(uiTvj)2=i=1Kui2=K\sum_{j=1}^D c_j = \sum_{j=1}^D\sum_{i=1}^K (\boldsymbol{u}_i^T \boldsymbol{v}_j)^2 = \sum_{i=1}^K \sum_{j=1}^D (\boldsymbol{u}_i^T \boldsymbol{v}_j)^2 = \sum_{i=1}^K \|\boldsymbol{u}_i\|^2 = K

Задача максимизации j=1Dλjcj\sum_{j=1}^D \lambda_j c_j при условиях 0cj10 \le c_j \le 1 и cj=K\sum c_j = K решается выбором максимально возможных весов для самых больших коэффициентов λj\lambda_j. Поскольку собственные числа упорядочены:

λ1λ2...λD0,\lambda_1\ge\lambda_2\ge...\lambda_D \ge 0,

необходимо положить c1=c2==cK=1c_1 = c_2 = \dots = c_K = 1 и cK+1==cD=0c_{K+1} = \dots = c_D = 0.

Это достигается тогда и только тогда, когда подпространство UU совпадает с подпространством, натянутым на собственные векторы v1,,vK\boldsymbol{v}_1, \dots, \boldsymbol{v}_K. В этом случае суммарная дисперсия принимает значение i=1Kλi\sum_{i=1}^K \lambda_i.

Ранее было доказано, что для центрированных данных дисперсия каждой компоненты совпадает с математическим ожиданием квадрата её значения, D(zi)=E[(zi)2]\mathbb{D}(z^i) = \mathbb{E}[(z^i)^2], откуда:

Dtotal=i=1KE[(zi)2]=E[i=1K(zi)2]=E[z2]\mathbb{D}_{total} = \sum_{i=1}^K \mathbb{E}[(z^i)^2] = \mathbb{E}\left[ \sum_{i=1}^K (z^i)^2 \right] = \mathbb{E}[\|\boldsymbol{z}\|^2]

\square

Пусть подпространство VV задано ортонормированным базисом {vi}i=1K\{\boldsymbol{v}_i\}_{i=1}^K, а вектор x^=i=1Kzivi\hat{\boldsymbol{x}} = \sum_{i=1}^K z^i \boldsymbol{v}_i является проекцией вектора x\boldsymbol{x} на это подпространство. Как мы выяснили KK-мерное подпространство, образованное первыми KK главными компонентами, оптимально в терминах максимизации нормы координат z\boldsymbol{z}:

v1,,vK=argmax{vi}i=1K:viTvj=I{i=j}E[z2]\boldsymbol{v}_{1}, \dots, \boldsymbol{v}_{K} = \arg \max_{\{\boldsymbol{v}_i\}_{i=1}^K : \boldsymbol{v}_i^T \boldsymbol{v}_j = \mathbb{I}\{i=j\}} \mathbb{E}[\|\boldsymbol{z}\|^2]

Оказывается, оно оптимально и в терминах максимизации нормы самих проекций x^\hat{\boldsymbol{x}} на подпространство VV:

v1,,vK=argmax{vi}i=1K:viTvj=I{i=j}E[x^2]\boldsymbol{v}_{1}, \dots, \boldsymbol{v}_{K} = \arg \max_{\{\boldsymbol{v}_i\}_{i=1}^K : \boldsymbol{v}_i^T \boldsymbol{v}_j = \mathbb{I}\{i=j\}} \mathbb{E}[\|\hat{\boldsymbol{x}}\|^2]

Это следует из следующего утверждения:

Утверждение: сохранение нормы при проектировании

x^2=z2\|\hat{\boldsymbol{x}}\|^2 = \|\boldsymbol{z}\|^2

Доказательство:

Распишем квадрат евклидовой нормы вектора x^\hat{\boldsymbol{x}} через скалярное произведение вектора самого на себя:

x^2=x^Tx^=(i=1Kzivi)T(j=1Kzjvj)\|\hat{\boldsymbol{x}}\|^2 = \hat{\boldsymbol{x}}^T \hat{\boldsymbol{x}} = \left( \sum_{i=1}^K z^i \boldsymbol{v}_i \right)^T \left( \sum_{j=1}^K z^j \boldsymbol{v}_j \right)

Используя свойство дистрибутивности и вынося скалярные координаты за знак транспонирования, получим двойную сумму:

x^2=i=1Kj=1Kzizj(viTvj)\|\hat{\boldsymbol{x}}\|^2 = \sum_{i=1}^K \sum_{j=1}^K z^i z^j (\boldsymbol{v}_i^T \boldsymbol{v}_j)

Поскольку базис {vi}\{\boldsymbol{v}_i\} является ортонормированным, viTvj=I{i=j}\boldsymbol{v}_i^T \boldsymbol{v}_j = \mathbb{I}\{i=j\}, следовательно

x^2=i=1K(zi)2=z2\|\hat{\boldsymbol{x}}\|^2 = \sum_{i=1}^K (z^i)^2 = \|\boldsymbol{z}\|^2

\square

Интерпретация

Таким образом, метод главных компонент находит наилучшее сжатие данных: среди всех способов линейно спроецировать объекты в KK-мерное подпространство, именно PCA сохраняет наибольший объем «информации», выраженной через суммарный разброс точек.

Оптимальность ожидаемого квадрата ошибки аппроксимации

Пусть подпространство VV задано ортонормированным базисом {vi}i=1K\{\boldsymbol{v}_i\}_{i=1}^K. Для любого центрированного вектора объекта x\boldsymbol{x} его можно представить в виде суммы двух составляющих:

x=x^+h\boldsymbol{x} = \hat{\boldsymbol{x}} + \boldsymbol{h}

Здесь x^=i=1K(viTx)vi\hat{\boldsymbol{x}} = \sum_{i=1}^K (\boldsymbol{v}_i^T \boldsymbol{x}) \boldsymbol{v}_i — ортогональная проекция вектора на подпространство VV, а h\boldsymbol{h}ошибка аппроксимации (approximation error), которая является ортогональным дополнением к проекции.

Утверждение: минимизация ошибки реконструкции

Среди всех линейных проекций в KK-мерное подпространство именно PCA минимизирует математическое ожидание квадрата ошибки аппроксимации E[h2]\mathbb{E}[\|\boldsymbol{h}\|^2].

Доказательство:

Распишем квадрат евклидовой нормы вектора x\boldsymbol{x} через скалярное произведение вектора на самого себя:

x2=(x^+h)T(x^+h)\|\boldsymbol{x}\|^2 = (\hat{\boldsymbol{x}} + \boldsymbol{h})^T (\hat{\boldsymbol{x}} + \boldsymbol{h})

Раскроем скобки, используя свойство дистрибутивности:

x2=x^Tx^+x^Th+hTx^+hTh\|\boldsymbol{x}\|^2 = \hat{\boldsymbol{x}}^T \hat{\boldsymbol{x}} + \hat{\boldsymbol{x}}^T \boldsymbol{h} + \boldsymbol{h}^T \hat{\boldsymbol{x}} + \boldsymbol{h}^T \boldsymbol{h}

По определению ортогональной проекции вектор ошибки h\boldsymbol{h} перпендикулярен подпространству VV, а значит, он перпендикулярен любому вектору из этого подпространства, включая саму проекцию x^\hat{\boldsymbol{x}}. Следовательно, скалярное произведение x^Th=0\hat{\boldsymbol{x}}^T \boldsymbol{h} = 0:

x2=x^2+0+0+h2=x^2+h2\|\boldsymbol{x}\|^2 = \|\hat{\boldsymbol{x}}\|^2 + 0 + 0 + \|\boldsymbol{h}\|^2 = \|\hat{\boldsymbol{x}}\|^2 + \|\boldsymbol{h}\|^2

Применим оператор математического ожидания к обеим частям равенства:

E[x2]=E[x^2]+E[h2]\mathbb{E}[\|\boldsymbol{x}\|^2] = \mathbb{E}[\|\hat{\boldsymbol{x}}\|^2] + \mathbb{E}[\|\boldsymbol{h}\|^2]

Выразим математическое ожидание квадрата ошибки:

E[h2]=E[x2]E[x^2]\mathbb{E}[\|\boldsymbol{h}\|^2] = \mathbb{E}[\|\boldsymbol{x}\|^2] - \mathbb{E}[\|\hat{\boldsymbol{x}}\|^2]

Величина E[x2]\mathbb{E}[\|\boldsymbol{x}\|^2] (полная дисперсия данных) не зависит от выбора подпространства и является постоянной для данной выборки. Таким образом, достижение минимума ошибки E[h2]\mathbb{E}[\|\boldsymbol{h}\|^2] эквивалентно достижению максимальной дисперсии проекций E[x^2]\mathbb{E}[\|\hat{\boldsymbol{x}}\|^2]. Как было доказано ранее, эта величина достигает максимума, когда базис подпространства образован первыми KK главными компонентами.

\square