Перейти к основному содержимому

Обработка временного признака

Временной признак

Часто одним из признаков является время наблюдения для заданного объекта. Например, в задаче прогноза числа арендованных велосипедов для разных дней, вектор признаков будет включать дату наблюдения, погоды, температуру и другие характеристики дня.

Для эффективного использования временного признака рекомендуется его заменить на новый признак, равный числу дней с начала наблюдений, т.е. с минимального значения этого признака среди всех объектов. Если известна не только дата, но и время, этот признак можно закодировать как число секунд с начала измерений.

Тренд

Такая кодировка обеспечит представление времени в виде вещественного числа и позволит учесть тренд в наблюдениях, состоящий, например, в том, что число арендованных велосипедов, например, росло со временем из-за того, что сервис аренды становился всё более популярным.

Сезонность

В нашем примере отклик имеет выраженную сезонность по времени, поскольку зависит от дня недели: ожидаемое число арендованных велосипедов своё по будням и выходным, а также в летние и зимние дни. Для учёта сезонности полезно извлечь дополнительные категориальные признаки, характеризующие номер месяца и день недели. Дополнительно можно извлечь признаки характеризующие праздничные дни. Если известна не только дата, но и время, то можно учитывать внутридневную сезонность, извлекая такой категориальный признак, как номер часа.

Ниже приведены модели, не учитывающие и учитывающие информацию, извлечённую из временного признака:

time-series-forecasting.png