Перейти к основному содержимому

Поточечный график

Для визуализации качества регрессионных прогнозов строят поточечный график (scatter plot), показывающий зависимость предсказанных откликов от реальных, то есть визуализируют множество точек

{yn,y^n}n\{ y_n,\hat{y}_n \}_n

Прогнозы будут тем лучше, чем ближе они будут лежать к диагональной прямой y^=y\hat{y}=y.

Рассмотрим следующую одномерную зависимость признака от отклика в осях x,y\mathbf{x},y:

XY-dependency.png

Тогда в осях y,y^y,\hat{y} прогнозы будут выглядеть так:

YYhat-dependency.png

По второму графику сразу видно, что модель систематически занижает прогнозы для малых yy и для больших, а для средних наоборот завышает. Это можно использовать для более тонкой настройки регрессионной модели.

По близости точек к диагонали можно судить о точности прогнозов. Также по графику легко можно идентифицировать выбросы - это будут те точки, которые сильно отклоняются от диагонали.

Визуализация в случае большого числа объектов

Если наблюдений слишком много, то вместо поточечной визуализации можно строить эмпирическое распределение плотности точек, например, в виде двумерной гистограммы.