Использование в экономических исследованиях методов регрессии и корреляции - Эконометрика как наука

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования линейной зависимости. Поэтому проверка наличия такой зависимости, оценивание ее индикаторов и параметров является одним из важнейших направлений приложения математической статистики.

Наиболее простым для изучения является случай взаимосвязи двух переменных (обозначим их х и у). Если это реальные статистические данные, то мы никогда не получим простую линию - линейную, квадратичную, экспоненциальную и т. д. Всегда будут присутствовать отклонения зависимой переменной, вызванные ошибками измерения, влиянием неучтенных величин или случайных факторов. Связь переменных, на которую накладываются воздействия случайных факторов, называется статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математического ожидания другой переменной.

Выделяют два типа взаимосвязей между переменными х и у:

    1) переменные равноправны, т. е. может быть не известно, какая из двух переменных является независимой, а какая - зависимой; 2) две исследуемые переменные неравноправны, но одна из них рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой).

В первом случае говорят о статистической взаимосвязи корреляционного типа. При этом возникают проблемы оценки связи между переменными. Например, связь показателей безработицы и инфляции в данной стране за определенный период времени. Может стоять вопрос, связаны ли между собой эти показатели, и при положительном ответе на него встает задача нахождения формы связи. Вопрос о наличии связи между экономическими переменными сводится к определению конкретной формулы (спецификации) такой связи, устойчивой к изменению числа наблюдений. Для этого используются специальные статистические методы и, соответственно, показатели, значения которых определенным образом (и с определенной вероятностью) свидетельствуют о наличии или отсутствии линейной связи между переменными.

Во втором случае, когда изменение одной из переменных служит причиной для изменения другой, должно быть оценено уравнение регрессии y = f(x). Уравнение регрессии - это формула статистической связи между переменными. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных - множественной регрессией. Например, Кейнсом была предложена линейная формула зависимости частного потребления С от располагаемого личного дохода Yd : С = С0 + b Yd, где С0 > 0 - величина автономного потребления, 1> b > 0 - предельная склонность к потреблению.

Выбор формулы связи переменных называется спецификацией уравнения регрессии. В данном случае выбрана линейная формула. Далее требуется оценить значения параметров и проверить надежность оценок.

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК), который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических х минимальна, т. е.

Для уравнений, приводимых к линейному виду, решается следующая система линейных уравнений:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Оценку качества построенной модели даст коэффициент R2 = rxy2 (индекс детерминации), а также средняя ошибка аппроксимации:

Допустимый предел значений средней ошибки аппроксимации - не более 8-10%. В этом случае модель оценивается как достаточно точная, в противном случае говорят о плохом качестве построенной модели. Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии или, как говорят, мерой качества подгонки регрессионной модели к наблюдаемым значениям, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации (0 R2 1), определяемый по формуле:

Коэффициент детерминации R2показывает, какая часть (доля) дисперсии результативного признака у, обусловлена вариацией объясняющей переменной. Показатель (1-R2) характеризует долю дисперсии у, вызванную влиянием остальных, не учтенных в модели факторов. Например, если R2 = 0,982, уравнением регрессии объясняется 98,2% результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (остаточная дисперсия). Чем ближе значение R2 единице, тем большую долю изменения результативного фактора можно объяснить за счет вариации включенного в модель фактора х, меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные (наблюдения теснее примыкают к линии регрессии) и модель можно использовать для прогноза значений результативного признака.

Заметим, что коэффициент детерминации R2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае верны равенства:

Если известен коэффициент детерминации R2, то критерий значимости уравнения регрессии или самого коэффициента детерминации может быть записан в виде:

В случае парной линейной модели коэффициент детерминации равен квадрату коэффициента корреляции, рассчитанного по формуле (1) (см. выше) Тогда

Существуют 2 этапа интерпретации уравнения регрессии:

    1. Первый состоит в словесном истолковании уравнения так, чтобы оно было понятно человеку, не являющемуся специалистом в области эконометрики и статистики. 2. На втором этапе необходимо решить, следует ли ограничиться первым этапом или провести более детальное исследование зависимости.

При анализе связи между переменными, измеренными на интервальном уровне, часто используют графическое представление такой связи, называемое диаграммой рассеивания. На диаграмме рассеивания каждое наблюдение, т. е. каждый "случай", изображается точкой в двухмерной системе координат. Значение независимой переменной для данного наблюдения определяет положение соответствующей точки относительно оси X, а значение зависимой переменной задает вторую координату точки -- по оси Y. Иными словами, перпендикуляр, опущенный из точки-"случая" на ось X, соответствует измеренному уровню независимой переменной, тогда как перпендикуляр, опущенный на ось Y, будет точно соответствовать наблюдавшемуся уровню зависимой переменной.

Существует обобщенный показатель, позволяющий оценить, насколько связь между переменными приближается к линейному функциональному отношению, которое на диаграмме рассеивания выглядит как прямая линия. Это коэффициент корреляции, измеряющий тесноту связи между переменными, т. е. их тенденцию изменяться совместно. Как и в рассмотренных выше мерах связи качественных признаков, коэффициент корреляции позволяет оценить возможность предсказания значений зависимой переменной по значениям независимой.

Наконец, при отсутствии систематической связи произведения будут иногда положительными, иногда отрицательными, а их сумма (и, следовательно, ковариация Х и Y) будет, в пределе, равная нулю. Таким образом, ковариация показывает величину и направление связи, совместного изменения Х и Y. Если разделить ковариацию Sxy на стандартные отклонения Sx и Sy (чтобы избавиться от влияния масштаба шкал, в которых измеряются Х и Y ), то мы получим искомую форму коэффициента корреляции Пирсона.

Коэффициент корреляции позволяет оценить степень связи между переменными. Однако этого недостаточно для того, чтобы непосредственно преобразовывать информацию, относящуюся к одной переменной, в оценки другой переменной. Допустим, мы выяснили, что коэффициент корреляции между переменными "величина партийного бюджета" и "число мест в парламенте" равен 0,8. Можем ли мы теперь предсказать, сколько мест в парламенте получит партия, годовой бюджет которой равен 100 млн. рублей? Похоже, что знание величины коэффициента корреляции нам здесь не поможет. Однако мы можем вспомнить, что коэффициент корреляции -- это еще и оценка соответствия разброса наших наблюдений той идеальной модели линейного функционального отношения, которое на рассмотренных выше диаграммах рассеивания представлено пунктирными прямыми. Эти линии называют линиями регрессии.

Как говорилось выше, линия регрессии не обязательно должна быть прямой, но мы ограничимся рассмотрением самого простого случая линейной зависимости (нелинейные связи во многих случаях также могут быть приближенно описаны линейными отношениями).

Существуют специальные статистические процедуры, которые позволяют найти регрессионную прямую, максимально соответствующую реальным данным. Регрессионный анализ, таким образом, дает возможность предсказывать значения Y по значениям X с минимальным количеством ошибок. В общем виде уравнение, описывающее прямую линию регрессии Y по X, выглядит так: где -- то предсказываемое значение по переменной Y (в только что рассмотренном примере -- количество мест в парламенте), а -- это точка, в которой прямая пересекает ось Y (т. е. значение Y для случая, когда Х = 0), и b -- коэффициент регрессии, т. е. наклон прямой. Часто удобно измерять обе переменные не в "сырых" шкалах, а в единицах отклонения от среднего. Процедура стандартизации, т. е. перевода исходной шкалы в стандартные Z-оценки, вам уже известна. Преимущество использования стандартизированных переменных в регрессионном анализе заключается в том, что линия регрессии в этом случае проходит через начало координат.

Похожие статьи




Использование в экономических исследованиях методов регрессии и корреляции - Эконометрика как наука

Предыдущая | Следующая