Обработка звука
Звук для обработки представляется либо в виде wave-формы (динамики силы звуковой волны во времени), либо спектрограммы (spectrogram), описывающей представленность тех или иных частот во времени. Они показаны на рисунке сверху и снизу соответственно (источник):
Опишем примеры популярных задач, решаемых для обработки звука.
Классификация звука - отнесение звука к одной из заранее заданных категорий. Например, определение жанра, исполнителя и названия композиции записанной мелодии. Классификация звука также используется в системах безопасности при определении говорящего по тембру и манере общения. В экологических приложениях решается, например, задача определения породы птицы по записи её пения.
Сегментация звука - разделение разговора нескольких собеседников на фрагменты, в которых говорит каждый из собеседников. Может использоваться для автоматической фокусировки камеры на говорящем в текущий момент собеседнике, распознавании голоса и суммаризации проведённой видеоконференции.
Повышение качества звука. Цифровой звук имеет два уровня дискретизации - число бит, кодирующих сигнал в каждый момент времени, а также частота моментов времени, когда сила звукового сигнала записывается. Соответственно нейросетевыми методами можно повышать оба уровня дискретизации, повышая качество воспроизведения.
Распознавание речи (speech to text) - перевод звука в текст, а также обратная задача - генерация речи (text to speech, speech synthesis), используемая голосовыми помощниками.
Стилизация звука - трансформация речи, например, чтобы в игре участник мог говорить голосом своего персонажа.
Звук, как последовательность амплитуд звуковой волны (в wav форме) или как последовательность звучащих в каждый момент времени частот (в виде спектрограммы) можно обрабатывать рекуррентными сетями. Более высокое качество обеспечивают использование механизма внимания и трансформерных моделей.