Перейти к основному содержимому

Латентный семантический анализ

Методы, основанные на совстречаемости слов, выдают эмбеддинги длины SS (число уникальных слов словаря). При раздельном учёте левого и правого контекста эмбеддинг будет размерности 2S2S. Поскольку число уникальных слов велика, то эмбеддинги будут получаться очень длинными, а работа с такими длинными эмбеддингами будет неэффективной, поскольку

  • потребуется много вычислений,

  • полученная перепараметризованная модель будет переобучаться.

Поэтому после получения высокоразмерного эмбеддинга его сжимают до значительно более низкой размерности D300D\sim 300.

Усечённое сингулярное разложение

Для этого к матрице совстречаемости MM применяют усечённое сингулярное разложение (truncated singluar values decomposition, truncated SVD), являющееся наиболее точным низкоранговым приближением исходной матрицы по норме Фробениуса:

MUΣVT,UTU=I,  VTV=I,Σ=diag{σ1,σ2,...σD},M \approx U\cdot \Sigma \cdot V^T, \quad U^T\cdot U = I, \; V^T\cdot V = I, \Sigma=\text{diag}\{\sigma_1, \sigma_2, ...\sigma_D\},

где II обозначает единичную матрицу размера D×DD\times D, а diag{σ1,σ2,...σD}\text{diag}\{\sigma_1,\sigma_2,...\sigma_D\} - диагональную с элементами σ1σ2...σD0\sigma_1\ge \sigma_2\ge...\ge\sigma_D\ge0, называемыми сингулярными числами (singluar values).

Размеры соответствующих матриц: U,VRS×D,ΣRD×DU,V\in\mathbb{R}^{S\times D},\Sigma\in\mathbb{R}^{D\times D}, а DD является выбираемым гиперпараметром.

Чем DD выше, тем приближение матрицы будет менее экономичным, зато более точным. Безошибочная точность достигается, когда DD станет равен рангу матрицы MM или будет ещё больше.

Геометрически сингулярное разложение выглядит следующим образом, где рядом с каждой матрицей указан её размер:

Интуиция сингулярного разложения

В методах совстречаемости ii-му слову соответствует ii-й полноразмерный эмбеддинг в виде ii-й строки матрицы MM. Из сингулярного разложения следует, что все эмбеддинги представляются линейной комбинацией строк матрицы VTV^T. Можно показать, что это первые DD главных компонент для эмбеддингов всех слов. Интуитивно эти строки показывают основные темы или высокоуровневые смысловые концепции, линейно комбинируя которые, можно получить эмбеддинг любого слова с высокой точностью. Например, при анализе новостей такими концепциями могут быть темы политики, экономики, спорта, культуры и т.д.

ii-й элемент матрицы Σ\Sigma будет весом, на который домножается каждая тема, интуитивно - её важность для восстановления полноразмерных эмбеддингов.

А ii-ая строка матрицы UU будет обозначать коэффициенты, с которыми каждую из тем нужно сложить/вычесть, чтобы (приближённо) получить исходный полноразмерный эмбеддинг.

Построение низкоразмерных эмбеддингов

Таким образом, чтобы эффективно представить ii-ое слово, достаточно перейти от его полноразмерного эмбеддинга к сокращённому - ii-й строке матрицы UU.

По сути при этом мы перейдём от описания слова по контекстным словам, с которыми оно часто встречается, к его описанию в терминах семантических высокоуровневых тем, к которым оно принадлежит. Такой подход называется латентным семантическим анализом (Latent Semantic Analysis, LSA).

Классический LSA

Более часто подход LSA используется не для построения эмбеддингов слов, а для построения эмбеддингов документов:

  1. Каждый документ представляется SS-мерным эмбеддингом по тому, насколько сильно в нём представлено каждое уникальное слово языка (в виде счётчиков встречаемости либо частоты встречаемости либо TF-IDF представления).

  2. Эти эмбеддинги конкатенируются в матрицу MRN×SM\in\mathbb{R}^{N\times S}, где NN - число документов.

  3. Далее точно так же к матрице MM применяется метод LSA, в результате которого каждый документ кодируется уже сокращенным DD-мерным эмбеддингом, представляющим собой степени представленности каждой темы уже не в слове, а в документе среди тем, заданных строками матрицы VTV^T.

Пока мы изучили построение эмбеддингов слов методами классического машинного обучения. Далее мы изучим уже нейросетевой подход Word2vec для построения эмбеддингов слов в тексте.