Многофакторный корреляционно-регрессионный анализ - Статистическое изучение взаимосвязи социально-экономических явлений

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

    - теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи; - выбор формы связи (уравнения регрессии); - отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию); - вычисление параметров уравнения регрессии и коэффициентов корреляции; - проверка адекватности полученной модели; - интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос - рост - пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

Метода пошагового исключения;

Метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков, даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторами и :

.

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков. Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):

.

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

,

Где - коэффициент регрессии при - том факторе, - среднее значение - того фактора, - среднее значение результативного признака.

- коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения.

,

Где - среднее квадратическое отклонение - того фактора, - среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака.

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

    - оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных; - оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции - показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции:

,

Где - количество признаков, - выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

,

Где - определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле:

,

Где - алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

Похожие статьи




Многофакторный корреляционно-регрессионный анализ - Статистическое изучение взаимосвязи социально-экономических явлений

Предыдущая | Следующая