Построение модели - Анализ поведения домашних хозяйств в современной России

Ориентируясь на результаты предварительного анализа и экономических соображений, была построена базовая регрессионная модель по данным, собранным в феврале-мае 2014. Зависимой переменной обозначается та доля дохода, которую домохозяйства готовы потратить на ценные бумаги, а регрессорами выступают различные факторы, влияющие на выбор величины этой доли. Были использованы все переменные, представленные в начале исследования.

Таблица 6

Регрессионная модель 1 (включающая все факторы)

На основе этих факторов была построена следующая регрессия:

Stocks=3.804005+0.0425174*income-0.0056518*add_in+2.397124*exper

+2.366781*state+2.014515*climate+2.014515*climate-1.288754*optimism-1.393191*habits+3.548011*policy +0.4931492*know +2.364792*risk (1)

Переменные add_in, others, представленные в регрессии (1), в дальнейшем не будут использоваться, так как они не такие значимые, как остальные.

В модели (1) факторами, имеющими большее влияние, оказались:

    -опыт инвестирования, -оценка инвестиционного климата в стране, -оценка политической ситуации в стране, -рискованность, -доверие государству.

Другие факторы не так сильно влияют на формирование доли от дохода, которая пойдет на ценные бумаги. Исключив незначимые переменные, была построена новая модель.

Таблица 7

Регрессионная модель 2 (с исключением нескольких переменных)

Новая модель без значимых переменных выглядит следующим образом:

Stocks= -4.021174 +0.0387465*income +2.148045*exper

+2.529902*state +2.0274*climate-1.324986*optimism-1.257482*habits +3.723149*policy +0.4678355*know+1.961562*risk (2)

Построив базовую модель, проверим ее на наличии выбросов с помощью разнообразных тестов. Если есть большие выбросы, то коэффициенты регрессий, построенных с учетом выбросов и без них, будут сильно отличаться друга от друга. В итоге, из-за наличия выбросов, мы исказим основные закономерности. Поэтому явные выбросы стоит удалить.

Таблица 8

Выявление выбросов на основе Studentized residuals:

. list id rstud stocks income exp state climate optimism habits policy know

Risk if abs(rstud)>2.5

Пока не будем удалять выбросы, а рассмотрим все тесты.

Таблица 9

Выявление выбросов на основе расстояния Кука

Predict cooksd, cooksd

. count if cooksd>1

0

Оказалось, что нет критических выбросов, для которых расстояние Кука превышает 1. Но если использовать эмпирическое правило и считать выбросами наблюдения, для которых Cook's distance>4/n, удалять нужно 38 наблюдений:

Таблица 10

Выявление выбросов на основе расстояния Кука (эмпирическое правило)

. count if (cooksd>4/585)

38

Согласно же показателю DFITS необходимо удалить 16 наблюдений, что не так существенно для 585 наблюдений.

Таблица 11

Выявление выбросов на основе показателя DFITS

. predict dfits, dfits

. count if dfits>2*sqrt(8/585)

16

Для выявления наблюдений, которые могут искажать оценки отдельных коэффициентов регрессии, следует рассчитать показатели dfbeta для коэффициентов перед каждой из объясняющих переменных.

Таблица 12

Выявление выбросов, искажающих отдельные оценки коэффициентов

. list id _dfbeta_2 if _dfbeta_2>2/sqrt(585)

+----------------+

| id _dfbe~_2 |

|----------------|

24. | 24 .2567899 |

    123. | 123 .1113937 | 222. | 222 .2567899 | 320. | 320 .1113937 | 418. | 418 .2567899 |

|----------------|

513. | 513 .1113937 |

+----------------+

. . list id _dfbeta_5 if _dfbeta_5>2/sqrt(585)

+----------------+

| id _dfbe~_5 |

|----------------|

62. | 62 .1151937 |

124.| 124 .0933014 |

259.| 259 .1151937 |

321.| 321 .0933014 |

454.| 454 .1151937 |

|----------------|

514.| 514 .0933014 |

+----------------+

Рассчитав данные показатели для каждого регрессора, выявили, что выбросов не так много, и пока можно их не удалять.

Окончательный список выбросов сформируем таким образом, чтобы он включал только наблюдения, признанные выбросами по всем трем критериям.

Таблица 13

Выбросы по 3-м критериям

. list id if (dfits>2*sqrt(8/585)) &; (cooksd>4/585) &; (abs(rstud)>2.5)

+-----+

| id |

|-----|

1. | 1 |

4. | 4 |

    183. | 183 | 199. | 199 | 202. | 202 |

|-----|

    379. | 379 | 396. | 396 | 399. | 399 | 572. | 572 | 581. | 581 |

Проверим, сильно ли изменятся оценки коэффициентов без этих наблюдений. (1) модель - базовая, а (2) - это модель без выбросов.

Таблица 14

На основании полученных данных была выведена следующая регрессия:

Stocks=-2.733773+0.02069*income+2.774632*exper +3.223497*state+1.482393*climate-0.5285961*optimism

-1.494645*habits +4.923997*policy+0.5711205*know

+0.8801191*risk (3)

Проверим, сильно ли изменились значения коэффициентов без некоторых наблюдений. В таблице (15) коэффициенты модели без выбросов обозначаются, как coef(2), а коэффициенты базовой модели - coef(1).

Таблица 15

Сравнение коэффициентов базовой модели и модели без выбросов

Coef(2)

Coef(1)

Income

0.02069

0.0387465

Exper

2.774632

2.148045

State

3.223497

2.529901

Climate

1.482393

2.0274

Optimism

-0,53

-1,32

Habits

-1,49

-1,26

Policy

4.923997

3.723149

Know

0.5711205

0.4678355

Risk

0.8801191

1.961562

_cons

-2,73

-4,02

Знаки регрессоров остались прежними, но величины коэффициентов, как видно из таблицы, изменились.

Уровень дохода теперь оказывает меньшее влияние, а вот такие факторы, как доверие государству, оценка политической ситуации в стране, оценка своих знаний теперь стали решающими.

Для наилучшей спецификации модели удалим эти подозрительные наблюдения, которые были признанными выбросами по трем критериям: dfits, cooksd и rstud. Тогда базовая регрессионная модель будет выглядеть следующим образом:

Stocks=-2.733773+0.02069*income+2.774632*exper+3.223497*state

+1.482393*climate-0.5285961*optimism-1.494645*habits+4.923997*policy

+0.5711205*know+0.8801191*risk (4)

Теперь коэффициент детерминации равен 0,985 (0,9522) и все переменные значимы на 5% уровне значимости. Необходимо провести диагностику этой модели.

Таблица 16

Все тесты также показали, что распределение остатков не является нормальным. Таким образом, можно сделать вывод, что спецификация выбрана неверно и/или имеет место гетероскедастичность. Теперь перейдем к формальным тестам на функциональную форму и гетероскедастичность.

Таблица 17

Тест Бреуша-Пагана

. hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of stocks

Chi2(1) = 399.34

Prob > chi2 = 0.0000

. . ottest, rhs

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: income exper state climate optimism habits policy know risk

Chi2(9) = 441.36

Prob > chi2 = 0.0000

Таблица 18

Тест Уайта

. imtest, white

White's test for Ho: homoskedasticity

Against Ha: unrestricted heteroskedasticity

Chi2(30) = 323.78

Prob > chi2 = 0.0000

Cameron &; Trivedi's decomposition of IM-test

Source | chi2 df p

Heteroskedasticity | 323.78 30 0.0000

Skewness | 51.23 9 0.0000

Kurtosis | 43.90 1 0.0000

Total | 418.91 40 0.0000

Оба теста: и тест Бреуша-Пагана, и тест Уайта указывают на наличие гетероскедастичности (p-value<0,05). Существует несколько методов борьбы с гетероскедастичностью: использование робастных ошибок, изменение спецификации, взвешенный МНК.

Если рассматривать функциональную форму, то проведем linktest и Ramsey RESET-test.

Таблица 19

Linktest

Таблица 20

Ramsey Test

Ho: model has no omitted variables

F(3, 534) = 136.68

Prob > F = 0.0000

Гипотеза о том, что квадрат, куб и четвертая степень предсказанных значений незначимы, не отвергается. Cледовательно, функциональная форма выбрана правильно.

При построении таблицы парных корреляция из регрессии были удалены переменные оптимизм и привычки, так как оптимизм был коррелирован с опытом, а привычки с несколькими переменными.

Таблица 21

Матрица корреляции

Мультиколлинеарность не выявлена, так как все VIF<5. Это означает, что наши объясняющие переменные не дублируют друг друга по смыслу, а измеряют разные, более или менее независимые аспекты.

Проведя оценку базовой модели, можно сказать, что спецификация модели является удачной, и нет проблемы мультиколлинеарности, но существует проблема гетероскедастичности и распределение остатков не нормальное. В следующем разделе мы попытаемся устранить данные проблемы.

Таблица 22

Логлинейная модель

Можно попробовать изменить функциональную форму модели. Базовая модель была линейная, а третья модель будет логлинейной (log-linear). Можно также рассмотреть также модели с добавлением квадрата регрессора или куба, но это сложнее интерпретировать.

Таблица 23

Сравнение коэффициентов 3-х моделей

Coef(2)

Coef(1)

Ln_stocks

Income

0.02069

0.038746

0.0338615

Exper

2.774632

2.14804

1.816237

State

3.223497

2.529901

3.198085

Climate

1.482393

2.0274

1.881893

Policy

4.923997

3.723149

4.278034

Know

0.5711205

0.467835

0.4039867

Risk

0.8801191

1.961562

1.351987

_cons

-2,73

-4,02

-4,7285

У первых двух моделей одинаковая зависимая переменная, а третья зависимая переменная отличается от них. Первые 2 модели можно сравнить между собой на основе R2-adjusted и информационных критериев, а третью модель с ними нельзя сравнивать, так как у них разные TSS.

Если сравнивать 1 и 2 модель по информационным критериям и по R2-adjusted, то вторая модель, однозначно, лучше, чем первая. AIC и BIC меньше, а R2-adjusted больше, следовательно, отдаем предпочтение второй модели.

Так как в третьей модели у нас ln_stock, нам надо предсказать stock, чтобы сравнить с предыдущими моделями. Для этого:

1. Создаем предсказанное значение логарифма цены планшета под названием ln_stock

. predict ln_stock_hat

2. Делаем наивное предсказание Y путем возведения числа e в степень, равную предсказанному логарифму цены

. gen stock_naive_hat=exp(ln_stock_hat)

3. Строим регрессию (без константы) для получения правильного предсказания

. reg stock stock_naive_hat, noconstant

*4. Предсказание по этой регрессии и есть правильное предсказание stock

. predict stock_hat

После получения предсказания можно оценить псевдо R2 модели.

Таблица 24

Оценка псевдо R2модели

Теперь проведем несколько тестов, чтобы выбрать основную модель между 2-ой и 3-ей моделями.

Таблица 25

Формальные тесты на нормальность распределения

Все тесты также показывают, что распределение остатков не является нормальным. Теперь перейдем к формальным тестам на функциональную форму и гетероскедастичность.

Таблица 25

Формальные тесты на функциональную форму

. hettest, rhs

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: stocks_naive_hat income exper state climate policy risk know

chi2(8) = 263.35

Prob > chi2 = 0.0000

. imtest, white

White's test for Ho: homoskedasticity

against Ha: unrestricted heteroskedasticity

chi2(33) = 102.57

Prob > chi2 = 0.0000

Cameron &; Trivedi's decomposition of IM-test

---------------------------------------------------

Source | chi2 df p

---------------------+-----------------------------

Heteroskedasticity | 102.57 33 0.0000

Skewness | 25.23 8 0.0014

Kurtosis | 8.41 1 0.0037

---------------------+-----------------------------

Total | 136.20 42 0.0000

. linktest

Source | SS df MS Number of obs = 585

-------------+----------------------------- F( 2, 582) = 5797.28

Model | 26600.137 2 13300.0685 Prob > F = 0.0000

Residual | 1335.22029 582 2.29419294 R-squared = 0.9522

-------------+----------------------------- Adj R-squared = 0.9520

Total | 27935.3573 584 47.8345159 Root MSE = 1.5147

-----------------------------------------------------------------------------

stocks | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+---------------------------------------------------------------

_hat | .8397595 .0430926 19.49 0.000 .7551236 .9243954

_hatsq | .0096415 .0025318 3.81 0.000 .0046689 .0146141

_cons | .0608553 .0752475 0.81 0.419 -.0869344 .208645

-----------------------------------------------------------------------------

. . ovtest

Ramsey RESET test using powers of the fitted values of stocks

Ho: model has no omitted variables

F(3, 573) = 40.69

Prob > F = 0.0000

Формально, проблемы со спецификацией есть, так как Ramsey RESET-test выявил ошибку спецификации, причем этот тест более строгий, чем linktest. Также следует проверить нашу модель на мультиколлинеарность.

Мультиколлинеарность не выявлена, так как все VIF<5. Это означает, что наши объясняющие переменные не дублируют друг друга по смыслу, а измеряют разные, более или менее независимые аспекты.

Следующим шагом будет диагностика третьей модели. Из графиков, полученных с помощью "Stata"можно заметить, что распределение остатков очень близко к нормальному. На графике квантиль - квантиль отчетливо видно, что точки лежат близко к прямой, следовательно, распределение остатков слабо отличается от нормального. Удостоверимся в этом с помощью тестов:

Таблица 26

Все тесты указывают на то, что распределение остатков является нормальным. Теперь перейдем к формальным тестам на гетероскедастичность.

Таблица 27

Формальные тесты на гетероскедастичность

Оба теста: и тест Бреуша-Пагана, и тест Уайта указывают на отсутствие гетероскедастичности. Если рассматривать функциональную форму, то проведем linktest и Ramsey RESET-test.

Исходя из подробного анализа моделей, можно сделать сравнительную таблицу по основным критериям.

Таблица 28

Сравнение 3-х возможных моделей

Базовая модель(1)

Модель без выбросов(2)

Логлинейная модель(3)

Нормальность остатков

-

-

+

Гомоскедастичность

-

+

+

Отсутствие мультиколлинеарности

+

+

+

Функциональная форма

+

-

-

R2-adj

0.9526

0.9850

0.9522

Как мы решили ранее, выбирать будем между моделями 2 и 3. Вероятно, за основную возьмем логлинейную модель (3), так как по результатам эконометрических тестов она оказалась лучше модели (2). А что касается функциональной формы, то и (2) и (3) модели не очень удачны.

Так как основная модель является не линейной, то изменяется интерпретация оценок коэффициентов. Теперь оценки коэффициентов показывают, насколько процентов изменится доля дохода на ценные бумаги при изменении соответствующей переменной на единицу.

Если какой-либо регрессор в (не фиктивный) увеличивается на 1, то зависимая переменная увеличивается на (ев-1)*100%. При малых в (-0,2<в<0,2) зависимая переменная увеличивается примерно на в*100%. Поскольку |в|?0,2, важно использовать именно точную формулу. В таблице 4 представлена подробная интерпретация каждого коэффициента итоговой модели.

Таблица 29

Интерпретация коэффициентов итоговой модели

Переменная

Значение коэффициента

Income

0.0338615

Exper

0.1816237

State

0.3198085

Climate

0.1881893

Policy

0.4278034

Know

0.04039867

Risk

0.351987

Полученная модель (3) свидетельствует о том, что:

    -при увеличении дохода на 1 тыс. рублей, доля вложения денежных средств в акции возрастает на 3,4%, -если у домохозяйства раньше имелся опыт инвестирования, то доля вложенных средств в акции увеличивается на 18,2%, -если домохозяйство доверяет государству (31,9%), -если инвестиционный климат позволяет думать о благоприятной тенденции (18,8%), -если политическая ситуация устраивает домохозяйство (42,7%), -с увеличением оценки своих знаний о финансовых активах и способах вложениях, доля увеличивается на 4%, -если домохозяйство оценивает себя, как рискованное, то доля вложенных в акции средств будет больше на 35%.

Похожие статьи




Построение модели - Анализ поведения домашних хозяйств в современной России

Предыдущая | Следующая