Тематическое моделирование

При работе с текстовыми данными стандартное представление «мешок слов» (Bag-of-Words) порождает пространство признаков огромной размерности, равной размеру словаря. Однако слова в языке не независимы: они группируются в скрытые темы (latent topics).

Например, слова «инфляция», «банк» и «кредит» часто встречаются вместе, сигнализируя о финансовой тематике.

Тематическое моделирование (topic modeling) — это метод снижения размерности, в котором объект (документ) представляется не как набор слов, а как распределение по темам. Это позволяет сжать информацию и находить семантически близкие документы, даже если в них нет общих слов.

Анализируя же вектора полученных тем, можно быстро составить общее представление о типах текстов в большой текстовой коллекции.

Вероятностный латентно-семантический анализ (PLSA)

Вероятностный латентно-семантический анализ (Probabilistic Latent Semantic Analysis, PLSA, также известно как PLSI [1]) рассматривает появление слова в документе как статистический процесс.

Пусть у нас есть набор из $N$ документов и словарь из $D$ слов. Мы предполагаем наличие $C$ скрытых тем. Появление слова $w$ в документе $d$ моделируется через вспомогательную переменную темы $t$ :

p(w | d) = \sum_{c=1}^C p(w | y=c) p(y=c | d)

Здесь используются следующие параметры:

$p(y=c | d)$ — вероятность темы $c$ в документе $d$ (вектор $\boldsymbol{\theta}_n$ );
$p(w | y=c)$ — вероятность слова $w$ в теме $c$ (вектор $\boldsymbol{\phi}_c$ ).

Настройка модели

Для настройки используется метод максимального правдоподобия (Maximum Likelihood Estimation). Мы максимизируем логарифм вероятности всей коллекции текстов:

\sum_{n=1}^N \sum_{i=1}^D n(d_n, w^i) \ln p(w^i | d_n) \to \max_{\boldsymbol{\theta}, \boldsymbol{\phi}}

где $n(d_n, w^i)$ — количество вхождений слова $i$ в документ $n$ . Оптимизация проводится с помощью EM-алгоритма (Expectation-Maximization algorithm).

Латентное размещение Дирихле (LDA)

Латентное размещение Дирихле (Latent Dirichlet Allocation, LDA [2]) является развитием PLSA. В этой модели параметры $\boldsymbol{\theta}_n$ и $\boldsymbol{\phi}_c$ сами являются случайными величинами, подчиняющимися распределению Дирихле.

Распределение Дирихле выбрано потому, что для него проще получить оценку модели через байесовский вывод.

Формулы и гиперпараметры

В LDA вводится иерархический процесс:

Для каждого документа $n$ выбирается вектор распределения тем: $\boldsymbol{\theta}_n \sim \text{Dir}(\boldsymbol{\alpha})$ .
Для каждой темы $c$ выбирается вектор распределения слов: $\boldsymbol{\phi}_c \sim \text{Dir}(\boldsymbol{\beta})$ .

Модель LDA гибче модели PLSA тем, что введённые гиперпараметры $\boldsymbol{\alpha}$ и $\boldsymbol{\beta}$ позволяют контролировать распределения слов в темах и распределение тем в документах:

Концентрация тем $\boldsymbol{\alpha}$ : определяет «разреженность» тем в документах. При малых $\alpha$ документ будет содержать всего 1–2 темы, при больших — будет смесью всех тем сразу.
Концентрация слов $\boldsymbol{\beta}$ : определяет разреженность слов в темах. Малые $\beta$ делают темы узкоспециализированными.

Преимущества и недостатки

Преимущества:

Устойчивость к переобучению за счёт априорных распределений.
Возможность обрабатывать документы, не входившие в обучающую выборку.
Интерпретируемость: темы можно представить в виде облаков слов.

Недостатки:

Требуется заранее задавать число тем $C$ .
Высокая вычислительная сложность (требуются методы вариационного вывода или сэмплирование Гиббса).

Сценарии использования

Новостные агрегаторы: автоматическая группировка статей по сюжетам (политика, спорт, наука).
Анализ отзывов: выделение ключевых аспектов продукта, которыми недовольны клиенты (доставка, качество, цена).
Рекомендательные системы: поиск профилей интересов пользователей на основе истории их чтения.
Классификация текстов: вместо многомерного TF-IDF представления каждый документ кодируется вектором $\boldsymbol{\theta}_n$ , характризующим степень представленности в нём каждой темы.

Тематическое моделирование

Вероятностный латентно-семантический анализ (PLSA)​

Настройка модели​

Латентное размещение Дирихле (LDA)​

Формулы и гиперпараметры​

Преимущества и недостатки​

Сценарии использования​

Литература​