Чем отличается обработка последовательностей с помощью свёрточной и рекуррентной сети? Какой из вариантов способен в теории учитывать информацию о всех исторических наблюдениях?
Как устроена генерация последовательностей с помощью рекуррентной сети? Как устроено обучение такой сети в режиме teacher forcing и какие есть альтернативные режимы обучения? В чём их преимущества и недостатки?
Как оценивать качество сгенерированного текста с помощью нейронной сети? Как адаптировать оценку качества так, чтобы простимулировать нейросеть генерировать более длинные тексты?
Чем жадный поиск отличается от лучевого поиска при генерации текста? Какие преимущества даёт лучевой поиск? При каких настройках лучевой поиск осуществляет полный перебор всех вариантов?
Опишите схему применения нескольких рекуррентных сетей, способную учитывать информацию о всей входной последовательности целиком, а не только о ранее виденных наблюдениях.
В каких режимах должны находиться гейты сетей LSTM и GRU, чтобы сеть
помнила информацию в начале входной последовательности;
временно игнорировала поступающую информацию, не относящуюся к задаче;
полностью забыла информацию, накопленную на данный момент?
В чём преимущества и недостатки использования механизма внимания в рекуррентной сети?