Построение модели на реальных данных - Ранговый метод оценивания параметров регрессионной модели

Для построения линейной регрессионной модели на основе реальных данных при помощи рангового метода оценивания параметров был выбран достаточно известный набор данных "ирисы Фишера". Эти данные были собраны американским ботаником Эдгаром Андерсоном, они включают в себя измеренные в миллиметрах длину и ширину чашелистика и лепестка у 150 экземпляров цветка ириса - по 50 экземпляров каждого из трех видов: ирис щетинистый, ирис виргинский и ирис разноцветный.

В этой работе строится линейная регрессионная модель зависимости длины лепестка от длины и ширины чашелистика для вида ирис разноцветный. Такая модель имеет 2 регрессора и 50 наблюдений, для построения модели надо оценить при помощи рангового метода 3 параметра: свободный член и коэффициенты перед двумя регрессорами.

В результате запуска алгоритма, вычисляющего ранговую оценку параметров модели, получилось, что свободный член равен 0,3141, коэффициент перед длиной чашелистика равен 0,5429, а коэффициент перед шириной чашелистика равен 0,3571. На рисунках 4.1 и 4.2 представлены графики, изображающие построенную зависимость в виде плоскости и реальные наблюдения в виде кружков.

Так же для данной модели были построены МНК - и МНМ-оценки параметров. Затем в данные были внесены изменения: у одного случайно выбранного наблюдения значение зависимой переменной было увеличено в 10 раз - как в случае ошибки с порядком. Ранговая оценка, МНК - и МНМ-оценки параметров были пересчитаны, их изменение d2 было измерено вычислением суммы квадратов разностей соответствующих компонент старого и нового векторов для каждой оценки параметров. Результаты для наглядности представлены в таблице 4.1.

график линейной регрессии и рассеивание данных

Рис. 4.1. График линейной регрессии и рассеивание данных

график линейной регрессии и рассеивание данных

Рис. 4.2. График линейной регрессии и рассеивание данных

Таблица 4.1

Оценка:

Ранговая оценка

МНК-оценка

МНМ-оценка

Модель:

До изменений

После изменений

До изменений

После изменений

До изменений

После изменений

И0

0,3141

0,757

-1,1089

21,0407

0,9023

0,903

И1

0,5429

0,5899

0,578

1,5217

0,5574

0,5583

И2

0,3571

0,2446

0,3394

-2,3672

0,3108

0,3092

D2

0,211

498,8213

3,7607*10-6

Таким образом, можно сделать вывод, что наилучшим образом на выбросы в данных реагирует МНМ-оценка, наихудшим - МНК-оценка. Притом ранговая оценка показывает вполне удовлетворительные результаты.

На рисунке 4.3 изображен график линейной регрессии с ранговыми оценками параметров модели после внесения изменений в данные, на которых так же видно точку-выброс.

график линейной регрессии после внесения изменений в данные

Рис. 4.3. График линейной регрессии после внесения изменений в данные

На рисунке 4.4 изображено изменение МНК-оценок параметров линейной регрессии в результате изменения данных: более бледная плоскость соответствует модели без внесенных выбросов, а более яркая - с выбросом.

изменение мнк-оценок в результате изменения данных

Рис. 4.4. Изменение МНК-оценок в результате изменения данных

В приложении № 4 представлен код для среды Matlab, при помощи которого была вычислена оценка параметров регрессии и построены графики, а так же проведен эксперимент на реальных данных.

В данной главе был рассмотрен пример применения рангового метода оценивания параметров линейной регрессионной модели к реальным данным и была построена линейная модель зависимости длины лепестка цветка ириса от длины и ширины его чашелистика. Так же было рассмотрено и сравнено влияние выбросов в данных на ранговую, МНК - и МНМ-оценки параметров модели с реальными данными.

Похожие статьи




Построение модели на реальных данных - Ранговый метод оценивания параметров регрессионной модели

Предыдущая | Следующая