Обработка звука
Рассмотрим основные задачи, которые решаются для звуковых данных с помощью нейронных сетей.
Представление звука
Звук для обработки представляется либо в виде wave-формы (динамики силы звуковой волны во времени [1]), либо спектрограммы (spectrogram [2]), описывающей представленность тех или иных частот во времени. Они показаны на рисунке сверху и снизу соответственно (источник):
Основные задачи обработки звуковых данных
Опишем основные задачи, возникающие при обработке звука.
Классификация звука (audio classification [3]) - отнесение звука к одной из заранее заданных категорий. Примеры:
-
Определение жанра, исполнителя и названия композиции записанной мелодии.
-
Идентификация по голосу - установление личности говорящего на основе уникальных характеристик его речи.
-
Анализ эмоций по голосу (интонации, тембру, скорости речи и другим акустическим характеристикам). Используется в колл-центрах и виртуальных ассистентах.
Сегментация звука (audio segmentation, speaker diarization [4]) - разделение разговора нескольких собеседниhttps://paperswithcode.com/task/audio-classificationков на фрагменты, в которых говорит каждый из собеседников. Может использоваться для автоматической фокусировки камеры на говорящем спикере, транскрипции диалога и суммаризации проведённой видеоконференции.
Повышение качества звука (audio super-resolution, speech enhancement [5]). Цифровой звук имеет два уровня дискретизации: число бит, кодирующих сигнал в каждый момент времени, а также частоту моментов времени, в которые записывается сила звукового сигнала. Нейросетевыми методами можно повышать оба уровня дискретизации, улучшая качество воспроизведения.
Распознавание речи (automatic speech recognition, ASR [6]) - перевод звука в текст. Применяется для документации переговоров, а также для автоматического формирования субтитров на видеоплатформах.
Генерация речи (text-to-speech, TTS, speech synthesis [7]), используется голосовыми помощниками. Родственной задачей является генерация музыки по жанру, нотам, словам песни.
Удаление шума (speech enhancement [8]) - задача извлечения чистого речевого сигнала из шумной аудиозаписи. Применяется в системах видеосвязи, распознавании речи
Разделение источников звука (audio source separation [9]). Используется при разделении записанного диалога на фразы отдельных спикеров, а также при декомпозиции песни на голос, барабаны, бас и другие инструменты.
Сжатие и генерация аудио (neural audio compression [10]) по сжатому представлению.
Стилизация звука (voice conversion / audio style transfer) - трансформация речи под другого спикера. Например, это позволяет участнику игры говорить голосом своего персонажа.
Звук, как последовательность амплитуд звуковой волны (в wav-формате) или как последовательность звучащих в каждый момент времени частот (в виде спектрограммы) можно обрабатывать рекуррентными сетями. Более высокое качество обеспечивают использование механизма внимания и трансформерных моделей.