Латентный семантический анализ
Методы, основанные на совстречаемости слов, выдают эмбеддинги длины (число уникальных слов словаря). При раздельном учёте левого и правого контекста эмбеддинг будет размера . Поскольку число уникальных слов велико, то эмбеддинги будут получаться очень длинными, а работа с такими длинными эмбеддингами будет неэффективной, поскольку
-
потребуется много вычислений,
-
полученная перепараметризованная модель будет переобучаться.
Поэтому после получения высокоразмерного эмбеддинга его сжимают до значительно более низкой размерности .