Латентный семантический анализ
Методы, основанные на совстречаемости слов, выдают эмбеддинги длины (число уникальных слов словаря). При раздельном учёте левого и правого контекста эмбеддинг будет размерности . Поскольку число уникальных слов велика, то эмбеддинги будут получаться очень длинными, а работа с такими длинными эмбеддингами будет неэффективной, поскольку
-
потребуется много вычислений,
-
полученная перепараметризованная модель будет переобучаться.
Поэтому после получения высокоразмерного эмбеддинга его сжимают до значительно более низкой размерности .