Перейти к основному содержимому

Поточечный график

Для оценки регрессионных прогнозов на качественном уровне часто строят поточечный график (scatter plot), показывающий зависимость предсказанных откликов от реальных, то есть визуализируют множество точек

{yn,y^n}n\{ y_n,\hat{y}_n \}_n

Рассмотрим следующую одномерную зависимость признака от отклика в осях x,y\mathbf{x},y:

XY-dependency.png

Тогда в осях y,y^y,\hat{y} прогнозы будут выглядеть так:

YYhat-dependency.png

Прогнозы тем лучше, чем они ближе к диагональной прямой y^=y\hat{y}=y.

По второму графику сразу видно, что модель систематически занижает прогнозы для малых yy и для больших, а для средних наоборот завышает. Это можно использовать для более тонкой настройки регрессионной модели.

По близости точек к диагонали можно судить о точности прогнозов. Также по графику легко можно идентифицировать выбросы - это будут те точки, которые сильно отклоняются от диагонали.

Подобная визуализация удобна тем, что её можно проводить для любого вида регрессии (линейной, нелинейной) и для любого количества признаков.

Визуализация для больших данных

Если наблюдений слишком много, то вместо поточечной визуализации можно строить эмпирическое распределение плотности точек, например, в виде двумерной гистограммы.