Исследование данных за докризисный год - Анализ влияния факторных признаков на цену говядины в условиях кризиса конца 2014 года

Ознакомимся с данными за 2013 год. Их описание представлено в таблице 2.

Таблица 2 - Описательная статистика исходных данных

Среднее

Медиана

Минимум

Максимум

Станд. откл.

Вариация

Асиммет-рия

Эксцесс

Beef

243,95

240,63

207,35

319,29

23,363

0,096

1,439

2,477

Hen

106,35

101,99

81,37

173,93

17,229

0,162

2,049

4,862

Pork

209,99

200,66

167,42

283,72

26,129

0,124

1,106

0,543

Mutton

343,29

309,53

245,46

446,31

41,396

0,132

0,867

1,294

Head

137,05

99,85

1,6

669,6

125,41

0,915

1,98

4,9

IPC

99,55

100,04

90,97

105,55

2,824

0,028

-0,632

0,728

Petrol

30,372

30,1

28,22

38,56

1,595

0,053

2,987

11,81

Oats

6010,0

5870,5

4107,1

9750

1203,5

0,2

0,835

0,57

Barley

6868,3

6599,2

7404,6

10716

1310

0,19

0,687

0,039

Corn

7596,8

7261,4

5692,8

16844

1665

0,219

3,35

15,744

Im

0,574

1

0

1

0,499

0,869

-0,3

-1,91

Ex

0,167

0

0

1

0,376

2,257

1,789

1,2

Минимальная цена на говядину установилась на отметке 207 рублей 35 копеек, максимальная на 319 рублей 29 копеек. 2/3 выборки лежит в интервале [220,59;267,31].

Асимметрия больше 1, вершина смещена влево. Коэффициент эксцесса - величина положительная, значит, мы имеем дело с вытянутым графиком.

Вариация = 0,096. Так как она меньше допустимого 0,33, можем сделать вывод об однородности выборки.

Так как среднее, мода и медиана не совпадают и коэффициенты асимметрии и эксцесса далеки от нуля, можно сделать вывод о ненормальности распределения.

Воспользуемся тестом на нормальное распределение.

Рассмотрим нулевую гипотезу о том, что ряд имеет нормальное распределение. Хи-квадрат расчетный установился на отметке 20,340. Вероятность того, что выборка нормально распределена, равна 0,00004. Отсюда следует принятие альтернативной гипотезы об отсутствии нормального рапределения. Так же это можно наблюдать на графике (рисунок 1).

тест на нормальное распределение

Рисунок 1 - тест на нормальное распределение

Для решения этой проблемы стоит воспользоваться логарифмированием.

Таблица 3 - Преобразованные данные

Показатель

Значение

Среднее

5,4928

Медиана

5,4833

Минимум

5,3344

Максимум

5,7661

Стандартное отклонение

0,0908

Вариация

0,016531

Асимметрия

1,1091

Эксцесс

1,7020

Среднее и медиана практически равны, мы приблизились к нормальному распределению.

Корреляционная матрица представлена в приложении 3.

Наибольшая корреляция обнаружена между факторами:

    - Hen - Beef; - Beef - Pork; - Pork - Hen; - Beef - Petrol; - Hen - Petrol; - Petrol - Oats; - Oats - Barley.

Между всеми перечисленными значениями наблюдается прямая связь. Все они не превышают отметки 0,8, следовательно, сильной связи между переменными нет. Можем сделать предположение об отсутствии мультиколлинеарности.

Таблица 4 - Оценки исходных параметров регрессионной модели

Коэффициент

Ст. ошибка

T-статистика

P-значение

Const

3,72295

0,356928

10,4306

0,0000

Hen

-0,00013126

0,000788646

-0,1664

0,8686

Pork

0,0013318

0,000451252

2,9513

0,0052

Mutton

0,000609622

0,00019332

3,1534

0,0030

Head

0,00003165

0,00006227

0,5084

0,6139

IPC

0,00547251

0,00335192

1,6327

0,1100

Petrol

0,0236924

0,00703705

3,3668

0,0016

Oats

-0,0000138

0,00000889

-1,5516

0,1283

Barley

0,00004146

0,00000921

1,1314

0,2643

Corn

0,00000857

0,00000613

1,3982

0,1694

Im

-0,0189099

0,0162792

-1,1616

0,2520

Ex

0,00928431

0,0221507

0,4191

0,6772

Среднее зав. Перемен

5,492767

Ст. откл. зав. Перемен

0,090800

Сумма кв. остатков

0,108702

Ст. ошибка модели

0,050874

R-квадрат

0,751238

Испр. R-квадрат

0,686085

F(11, 42)

11,53052

Р-значение (F)

0,000000

Факторы цена свинины, баранины, бензина связаны прямой связью на 1% уровне вероятности с зависимой переменной.

Далее оценим качество модели несколькими способами:

    - Коэффициент детерминации (R-квадрат) - это доля объясненного разброса в общем разбросе, она может быть от нуля до единицы: чем она выше, тем модель лучше. Значение 0.75 -- высокий показатель, то есть по данному критерию качества модель хорошая. - Одним из важнейших статических тестов является F тест Фишера, основанный на F-статистике. Он позволяет узнать, действительно ли полученное для регрессии значение R-квадрат отражает истинную зависимость или же оно получено случайно. В нашем примере F расчетное = 11,53, это значение больше Fкритического = 2,40: нулевая гипотеза о равенстве нулю всех факторов отвергается, то есть, уравнение в целом значимо. Кроме того, Р-значение (F) меньше 0,01.

Все эти показатели указывают на хорошее качество модели.

Далее следует провести тест на мультиколлинеарность.

В тех случаях, когда корреляция между факторами делает модель регрессии неудовлетворительной с точки зрения точности оценки коэффициентов, говорят о проблеме мультиколлинеарности. В случае совершенной коррелированности факторов МНК получить какие-либо оценки параметров невозможно. Воспользуемся методом инфляционных факторов. Он находится по формуле:

, (2.1)

Где R(j) - коэффициент множественной корреляции между переменной j и другими независимыми переменными

VIF принимает значения от 1 и выше. Если этот показатель больше 3, то велика вероятность наличия мультиколлинеарности. Лучше исключить этот фактор.

С помощью gretl получим значения VIF для каждого из факторов

Таблица 5 - Данные для теста на мультиколлинеарность

Показатель

VIF

Hen

3,781

Pork

2,847

Mutton

1,311

Head

1,249

IPC

1,835

Petrol

2,581

Oats

2,346

Barley

2,978

Corn

2,133

Im

1,352

Ex

1,422

VIFдля фактора "Цена курицы" оказался больше 3. Есть подозрение на мультиколлинеарность, следует его исключить и построить новую модель.

Таблица 6 - Оценки исходных параметров преобразованной регрессионной модели

Коэффициент

Ст. ошибка

T-статистика

P-значение

Const

3,74971

0,315052

11,9019

0,0000

Pork

0,00128164

0,000332046

3,8598

0,0004

Mutton

0,000610953

0,000190958

3,1994

0,0026

Head

0.00003181

0,00006155

0,5167

0,6080

IPC

0,00524042

0,00301344

1,7390

0,0892

Petrol

0,0234788

0,00684038

3,4324

0,0013

Oats

-0,00001385

0,0000879

-1,5763

0,1223

Barley

0,0001037

0,00009097

1,1403

0,2605

Corn

0,00008511

0,00006049

1,4069

0,1666

Im

0,0190573

0,0160703

-1,1859

0,2422

Ex

0,00989215

0,0215992

0,4580

0,6493

Среднее зав. перемен

5,492767

Ст. откл. зав. перемен

0,090800

Сумма кв. остатков

0,108773

Ст. ошибка модели

0,050295

R-квадрат

0,751073

Испр. R-квадрат

0,693184

F(10, 43)

12,97417

Р-значение (F)

0,000000

Проведем повторно тест на мультиколлинеарность.

Таблица 7 - Данные для теста на мультиколлинеарность преобразованной модели

Показатель

VIF

Pork

1,577

Mutton

1,309

Head

1,248

IPC

1,517

Petrol

2,495

Oats

2,343

Barley

2,976

Corn

2,126

Im

1,348

Ex

1,383

Все VIF <3. Мы избавились от мультиколлинеарности.

Гетероскедастичность -- это явление непостоянства дисперсии случайного члена. Поскольку в предпосылках МНК предполагается обратное (гомоскедастичность), такая ситуация приводит к тому, что оценки перестают быть эффективными, то есть теряют надежность и точность. В таком случае выводы, которые получены по таким оценкам, могут быть ошибочными.

Примем за нулевую гипотезу наличие гомоскедастичности и проведем тест Уайта.

Тестовая статистика: TR^2 = 15,184926,

Р-значение = P(Хи-квадрат(18) > 15,184926) = 0,649233.

Так как р-значение о наличии гетероскедастичности > 0,1, гипотеза и гомоскедастичности не отвергается, дисперсия случайного члена постоянна для всех наблюдений.

Далее исключим незначимые признаки и получим конечную модель:

Таблица 8 - Описательная статистика конечной модели

Коэффициент

Ст. ошибка

T-статистика

P-значение

Const

3,74258

0,251445

14,8843

0,0000

Pork

0,00141132

0,000323142

4,3675

0,0000

Mutton

0,000591538

0,000174664

3,3867

0,0014

IPC

0,00580416

0,00276156

2,1018

0,0407

Petrol

0,0227408

0,00555804

4,0915

0,0002

Среднее зав. перемен

5,492767

Ст. откл. зав. перемен

0,090800

Сумма кв. остатков

0,127453

Ст. ошибка модели

0,051001

R-квадрат

0,708325

Испр. R-квадрат

0,684515

F(4,49)

29,74877

Р-значение (F)

0,000000

Факторы Pork, Mutton, Petrol значимы на 1% уровне; фактор IPC значим на 5% уровне. Все они оказывают прямое влияние на зависимую переменную:

    - при увеличении цены на свинину на 1 рубль цена на говядину увеличивается на 0,14%; - при увеличении цены на баранину на 1 рубль цена на говядину увеличивается на 0,059%; - при увеличении цены на бензин на 1 рубль цена на говядину увеличивается на 2,2%; - при увеличении ИПЦ на 1 ед цена на говядину увеличивается на 0,58%.

R-квадрат, равный 0,7 и Р-значение (F) близкое к нулю говорят о хорошем качестве модели.

Получим итоговое уравнение :

Похожие статьи




Исследование данных за докризисный год - Анализ влияния факторных признаков на цену говядины в условиях кризиса конца 2014 года

Предыдущая | Следующая