Настройка параметров модели
Можно вручную задать функцию соответствия (которую называют прогностической или прогнозной функцией), которая бы выдавала прогнозы отклика по известным признакам, однако, зачастую это сложно сделать из-за многообразия объектов и сложных зависимостей между признаками и откликом. Поэтому в машинном обучении с учителем соответствие между признаками и откликом ищется в некотором классе функций , параметризованном вектором параметров , которые подбираются по обучающей выборке, состоящей из N объектов:
Например, класс функций может быть множеством всех константных прогнозов:
или состоять из всех линейных функций от признаков:
Существуют и более сложные семейства функций, о которых будет рассказано в следующих главах.
Чтобы из семейства функций выбрать наилучшую (что эквивалентно выбору определённого вектора параметров ) необходимо численно формализовать, какие прогнозы мы будем считать хорошими, а какие - плохими. Для этого задаётся функция потерь (loss function) , зависящая от истинного значения отклика и предсказанного . Чем выше значение функции потерь, тем хуже считается прогноз.
Примеры функций потерь для задачи регрессии:
задача | название | формула |
---|---|---|
регрессия | квадрат ошибки (squared error) | |
регрессия | модуль ошибки (absolute error) | |
классификация | индикатор ошибки |
Как в случае индикатора ошибки, в этой книге часто будет использоваться функция индикатора , возвращающей 1, если условие выполнено, и 0 иначе. Функцию потерь не нужно путать с функцией выигрыша (score function) , которая также встречается в машинном обучении. Для более плохих прогнозов функция потерь должна принимать более высокие значения, а функция выигрыша - наоборот, более низкие. Например, функцией выигрыша является индикатор верного угадывания класса .
Теоретический и эмпирический риск
Для настройки параметров модели традиционно желают минимизировать ожидаемые потери на новых объектах, поступающих из некоторого вероятностного распределения, называемые теоретическим риском:
Практически эта величина не вычислима из-за того, что мы не обладаем информацией о теоретическом распределении объектов , а знаем лишь ограниченную обучающую выборку . Поэтому на практике параметры находятся минимизацией эмпирического риска , представляющим собой выборочную оценку теоретического риска по обучающей выборке:
Оценка параметров определяется как минимизатор эмпирического риска:
где - матрица объекты-признаки, строки которой соответствуют -мерным векторам признаков для каждого из объектов обучающей выборки, а - вектор откликов.
Модель с настроенными параметрами также называют алгоритмом прогнозирования.