Перейти к основному содержимому

Дополнительная литература

Для дополнительных сведений о базовой архитектуре трансформера рекомендуется обращаться к оригинальной статье [1], а также к учебнику ШАД [2]. Реализация модели с поясняющими комментариями доступна в [3].

Также модель трансформера детально описана в [4], включая её применения к другим доменам, таким как изображения и звук.

Литература

  1. Vaswani A. Attention is all you need //Advances in Neural Information Processing Systems. – 2017.
  2. Учебник ШАД: Трансформеры.
  3. Материалы кафедры ММП (ВМК, МГУ): Механизм внимания. Архитектура Transformer.
  4. Bishop C. M., Bishop H. Deep learning: Foundations and concepts. – Springer Nature, 2023.