Статистический анализ и обработка данных - Анализ поведения домашних хозяйств в современной России

Прежде чем приступить к построению модели, необходимо знать, какого рода домохозяйства принимали участие в опросе.

Коэффициент вариации доходов рассматриваемых домохозяйств равен 35,4%, совокупность доходов находится на грани неоднородности (можно считать однородной). Минимальный доход составляет 25 тысяч рублей в месяц, максимальный - 126 тысяч рублей в месяц. Среднее значение равняется 61,7 тысяч рублей в месяц.

Таблица 2

Основные статистики (описательный анализ)

Таблица 2. Продолжение

Таблица 3

Зависимость доли сбережений, которая тратится на ценные бумаги, от дохода

Source | SS df MS Number of obs = 585

-------+------------------------------ F( 1, 583) = 1823.17

Model | 21166.783 1 21166.783 Prob > F = 0.0000

Residual | 6768.57427 583 11.6099044 R-squared = 0.7577

---------+------------------------------ Adj R-squared = 0.7573

Total | 27935.3573 584 47.8345159 Root MSE = 3.4073

-----------------------------------------------------------------------------

Stock | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

Income | .2755072 .0064524 42.70 0.000 .2628344 .2881799

Cons | -12.85296 .4223279 -30.43 0.000 -13.68243 -12.02349

С помощью формальных тестов можно проверить модель на выбросы, если будут очевидные выбросы, их необходимо будет удалить.

Таблица 4

Формальные тесты на нормальность распределения

Таблица 4. Продолжение

Все три теста на нормальность позволяют отвергнуть нулевую гипотезу о нормальности распределения.

Теперь проанализируем взаимосвязи переменных. Для этого построим корреляционную матрицы между количественными переменными.

Таблица 5

Матрица корреляций между количественными переменными

Income

Add_in

Stock

Climate

Know

Income

1.0000

Add_in

-0.0050*

1.0000

Stock

0.6745 *

-0.0366

1.000

Climate

0.6856 *

-0.0566*

0.5927 *

1.000

Know

0.5768 *

0.0311 *

0.5831 *

0.5132 *

1.000

Исходя из корреляционной матрицы, можно сделать вывод, что существует положительная корреляция между такими переменными, как инвестиционный климат и доход. Чтобы избежать в дальнейшем мультиколлинеарность, лучше не включать в уравнение регрессии факторы, сильно коррелированные с другими. Не смотря на то, что связь между факторами тесная, она не близка к максимальной, поэтому переменную "climate" оставим в уравнении регрессии.

Таким образом, проанализировав собранные данные, можно сделать вывод, что выбросов не так много, проблема мультиколлинеарности возникнуть не должна, если переменные в регрессионную модель будут включены правильно.

Похожие статьи




Статистический анализ и обработка данных - Анализ поведения домашних хозяйств в современной России

Предыдущая | Следующая