Методы определения корреляционной связи - Корреляционно-регрессионный анализ
Корреляцию и регрессию принято рассматривать как совокупный процесс статистического исследования, поэтому их использование в статистике часто именуют корреляционно-регрессионным анализом. Если между парами совокупностей просматривается вполне очевидная связь (ранее нами это исследовалось, есть публикации на данную тему и т. д.), то, минуя стадию корреляции, можно сразу приступать к поиску уравнения регрессии.
Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска.
При этом условно можно выделить методы, которые позволяют оценить наличие связи качественно, и методы, дающие количественные оценки. Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, существуют различные методы, которые принято называть элементарными.
Ими могут быть приемы, основанные на следующих операциях:
- ? параллельном сопоставлении рядов; ? построении корреляционной и групповой таблиц; ? графическом изображении с помощью поля корреляции.
Другой метод, более сложный и статистически надежный, ? это количественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки.
Суть Метода сравнения параллельных рядов состоит в том, что полученные в результате группировки и счетной обработки материалы статистического наблюдения располагаются ранжированными по факторному признаку параллельными рядами. Параллельно записываются значения результативного признака. Это дает возможность, сравнивая значения факторных и результативных показателей, проследить соотношения, выявить наличие связи и ее направление. Пример параллельных рядов, позволяющих оценить характер зависимости между стоимостью основных производственных фондов предприятия и объемом его товарного выпуска, приведен в таблице
Номер предприятия |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Стоимость основных производственных фондов (Х), млн. грн |
5,3 |
6,4 |
7,9 |
8,3 |
9,2 |
10,1 |
12,5 |
13,0 |
14,6 |
15,7 |
Выпуск продукции (У), млн. грн. |
5,8 |
7,6 |
8,7 |
9,1 |
11,9 |
12,3 |
13,8 |
14,0 |
15,2 |
17,6 |
Из таблицы видно, что с увеличением стоимости основных производственных фондов выпуск продукции увеличивается.
Направление и силу корреляционной связи по данным параллельных рядов рассчитывают при помощи коэффициентов Фехнера и корреляции рангов.
Коэффициент Фехнера (КФ) оценивает силу связи на основе сравнения знаков отклонений значений вариант от их среднего значения по каждому признаку. Совпадение знаков по факторному и результативному признакам означает согласованную вариацию, несовпадение - нарушение согласованности.
Где ? С - сумма знаков, которые совпали в обоих рядах; ? Н - сумма не совпавших знаков
Коэффициент Фехнера изменяется в пределах от -1 до +1. При приближении этого коэффициента к +1 наблюдается прямая и сильная согласованность, к -1 имеет место сильная, однако обратная согласованность. При нуле согласованность между исследуемыми признаками отсутствует.
Более точно оценивает силу связи Коэффициент корреляции рангов. Этот коэффициент учитывает согласованность рангов, соответствующих отдельным единицам совокупности по каждому из двух исследуемых признаков. [3]
При вычислении корреляционной связи двух переменных, представленных большими рядами чисел, предварительно составляется корреляционная таблица. В такой таблице каждая строка и каждый столбец являются распределением численностей переменных. Каждый столбец чисел соответствует значениям X, заключенным в некоторых пределах, и называется иксовым строем игреков, а каждая строка чисел соответствует значениям У, заключенным в некоторых пределах, и называется игрековым строем иксов. [4]
Познакомимся со способом оценки корреляционной связи посредством расчета коэффициента корреляции, рассмотрев конкретный пример.
Расчет коэффициента парной корреляции и его статистическая проверка
Существуют различные аналитические приемы определения коэффициента r. Известна такая формула:
Где S x и S y - среднеквадратичное отклонение соответственно для каждого рассматриваемого массива чисел; x i и y i ? текущие значения единиц обеих совокупностей; ?x и ? y ? их средние величины и n ? число измерений (элементов) в каждой совокупности.
В литературе по статистике рекомендуется использовать также и другое выражение:
В этом случае отпадает необходимость вычислять отклонения текущих (индивидуальных) значений от средней величины. Это исключает ошибку в расчетах при округлении средних величин.
Зная коэффициент корреляции, можно дать качественно-количественную оценку тесноты связи. Используются, например, специальные табличные соотношения (так называемая шкала Чеддока).
Величина коэффициента парной корреляции |
Характеристика силы связи |
До 0,3
|
Практически отсутствует Слабая Заметная Сильная Очень сильная |
Такие оценки носят общий характер и не претендуют на статистическую строгость, поскольку не дают гарантий на вероятностную достоверность. Поэтому в статистике принято использовать более надежные критерии для оценки тесноты связи, основываясь на рассчитанных значениях коэффициента парной корреляции (КПК).
Здесь может помочь только эталон, с которым можно было бы сравнить вычисленную характеристику. Статистика как раз и занимается созданием таких эталонов, которые называются критическими или табличными значениями.
Процедуру установления корреляционной зависимости принято называть проверкой гипотезы. Ее принято проводить в следующей последовательности:
- ?вычисление линейного коэффициента парной корреляции (КПК) между совокупностями случайных величин xi и yi ; ?его статистическая оценка (проверка значимости).
Статистическую оценку КПК проводят путем сравнения его абсолютной величины с табличным (или критическим) показателем r крит, значения которого отыскиваются из специальной таблицы.
Если окажется, что ?r расч ? r крит?, то с заданной степенью вероятности (обычно 95 %) можно утверждать, что между рассматриваемыми числовыми
Cовокупностями существует значимая линейная связь. Или по-другому ? гипотеза о значимости линейной связи не отвергается.
В случае же обратного соотношения, т. е. при ?r расч < r крит ?, делается заключение об отсутствии значимой связи.
Пример:
С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты Х и числа уволившихся за год рабочих
X |
100 |
150 |
200 |
250 |
300 |
Y |
60 |
35 |
20 |
20 |
15 |
Найти линейную регрессию Y на X, выборочный коэффициент корреляции. корреляционный регрессионный анализ моделирование
РЕШЕНИЕ. Сначала найдем характеристики случайных величин X и Y (выборочное среднее и выборочное среднее квадратическое отклонение).
X |
100 |
150 |
200 |
250 |
300 |
1000 |
Y |
10000 |
2500 |
0 |
2500 |
10000 |
25000 |
О ложной корреляции (влияние "третьего фактора")
Часто корреляцию и причинную обусловленность считают синонимами. Этот тезис имеет определенные основания, поскольку если нечто является причиной чего-либо другого, то можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и результат, проверка и качество, капиталовложения и прибыль, окружающая среда и прибыль).
Однако корреляция может быть и без причинной обусловленности. Это можно представить так: корреляция ? лишь число, которое указывает на то, что большим значениям одной переменной соответствуют большие (или же меньшие) значения другой переменной. Корреляция не может объяснить, почему эти две переменные связаны между собой. Так, корреляция не объясняет, почему капиталовложения порождают прибыль (или наоборот). Корреляция просто констатирует, что между этими величинами существует определенное соответствие. И не более того.
Одним из возможных оснований для существования "корреляции без причинной обусловленности" является наличие некоторого скрытого, ненаблюдаемого, третьего фактора, который "маскируется" под другую переменную. В результате фиксируется так называемая "ложная корреляция".
Допустим, нами выявлена высокая корреляция между приемом на работу новых менеджеров и созданием новых производственных мощностей. Возможно, именно менеджеры являются "причиной" капиталовложений в новые производственные мощности? Или же, наоборот, создание новых производственных мощностей послужило "причиной" приема на работу новых менеджеров? Скорее всего, однако, здесь проявляется действие третьего фактора ? высокой потребности в продукции фирмы, что и послужило причиной и приема на работу новых менеджеров, и создания новых производственных мощностей.
В качестве статистического показателя может быть использован также коэффициент (индекс) детерминации (причинности), который равен квадрату коэффициента корреляции (). Он показывает, в какой мере изменчивость у (результативного признака) объясняется поведением х (факторного признака), или иначе: какая часть общей изменчивости у вызвана собственно влиянием х. Этот показатель вычисляется путем простого возведения в квадрат коэффициента корреляции. Тем самым доля изменчивости у, определяемая выражением 1? , оказывается необъясненной.
Допустим к примеру, что коэффициент корреляции совокупности данных, относящихся к производственным затратам, равняется 0,869193.
Следовательно, значение равно
= 0,869193 2 = 0,755 или 75,5 %.
Это значение говорит о том, что 75,5 % вариации (изменчивости),
Скажем, недельных затрат объясняется количеством изделий, выпущенных за неделю. Остальная часть (24,5 %) вариации общих затрат объясняется какими-то другими причинами. Это значит, что более чем на 75 % мы знаем, что влияет на изменение изучаемого параметра, но почти на 25 % ничего путного сказать не можем о причинах наблюдаемой изменчивости.
Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе он к единице, тем, следовательно, меньше в нашей модели процесса влияние неучтенных факторов и тем больше оснований считать, что указанная зависимость отражает степень эффективности воздействия изучаемого фактора.
Похожие статьи
-
Сущность и основные условия применения корреляционного анализа В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение...
-
Важной задачей статистики является разработка методики статистической оценки социально-экономических явлений, которая осложняется тем, что многие...
-
Типы зависимостей - Корреляционно-регрессионный анализ
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется...
-
Частным случаем недетерминированной связи является связь случайная - стохастическая (вероятностная). Реализация вероятностного подхода к описанию...
-
Методы изучения связи качественных признаков - Основы эконометрики
При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют ряд...
-
Корреляция и регрессия Вспомним, что зависимости называются вероятностными или стохастическими, если каждому набору факторов Х I соответствует множество...
-
Общая схема метода Монте-Карло Сущность метода Монте-Карло состоит в следующем: требуется найти значение а некоторой изучаемой величины. Для этого...
-
Экономический корреляционный регрессионный Парная линейная регрессия Парная регрессия характеризует связь между двумя признаками: результативным и...
-
ОПРЕДЕЛЕНИЕ МЕТОДА ФАКТОРНОГО АНАЛИЗА И ЧИСЛА ФАКТОРОВ - Многомерный статистический анализ
Определение метода факторного анализа. Различные методы факторного анализа различаются в зависимости от подходов, которые используются для выделения...
-
Вещество [Co] Лиганды и Комплексообразователь Координационное число 6 Для комплексов с координационным числом 6 характерно октаэдрическое расположение...
-
Описание процессов, происходящих на поверхности, изобилует специальными терминами, и при рассмотрении адсорбционных явлений приходится говорить на языке,...
-
Математическое ожидание, дисперсия Дискретной называют случайную величину, которая принимает отдельные, изолированные возможные значения с определенными...
-
Собственно-корреляционные параметрические методы изучения связи - Основы эконометрики
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка...
-
Основные понятия корреляционно-регрессионного анализа Теория и методы корреляционного анализа используются для выявления связи между случайными...
-
Причинность, регрессия, корреляция Исследование объективно существующих зависимостей и взаимосвязей между явлениями и процессами - важнейшая задача...
-
1. В результате линейной комбинации две атомные орбитали (АО) формируют две молекулярные орбитали (МО) - связывающую, энергия которой ниже, чем энергия...
-
Корреляционный анализ - Основы научных исследований
Корреляционный анализ Представляет из себя совокупность методов обнаружения корреляционных связей между случайными величинами. Для двух случайных величин...
-
Корреляционный анализ данных - Статистическое исследование инвестиционной деятельности в регионе
Графическое представление корреляционной зависимости. Для графического представления корреляционной связи можно использовать прямоугольную систему...
-
ПОНЯТИЕ ОБ АВТОКОРРЕЛЯЦИИ. ОПРЕДЕЛЕНИЕ СИЛЫ АВТОКОРРЕЛЯЦИИ Парные регрессионные модели отражают специфику взаимодействия некоторого функционального...
-
Можно выделить девять этапов факторного анализа. Для наглядности представим эти этапы на схеме, а затем дадим им краткую характеристику. Этапы выполнения...
-
Пусть подынтегральная функция неотрицательна и ограничена: , а двумерная случайная величина распределена равномерно в прямоугольнике D с основанием и...
-
Монте карло погрешность распределение интеграл В качестве оценки интеграла принимают , Где n - число испытаний; F(x) - плотность распределения...
-
В большинстве случаев 0 и 1 неизвестны. Их определяют (оценивают), исходя из имеющихся выборочных наблюдений с помощью следующего уравнения: Где -...
-
Элементы матричного анализа - Методы решения системы линейных уравнений
Вектором, как на плоскости, так и в пространстве, называется направленный Отрезок , то есть такой Отрезок , один из концов которого выделен и называется...
-
Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные...
-
Сущность группировки, их виды и значение Группировка -- это распределение единиц по группам в соответствии со следующим принципом: различия между...
-
Модели линейного программирования. Основные определения Еще одним классом задач экономико-математического моделирования являются задачи линейного...
-
Численный сравнительный анализ - Ранговый метод оценивания параметров регрессионной модели
Итак, в рамках данной работы рассматриваются такие распределения случайных величин, как распределения Гаусса и Лапласа, треугольное распределение...
-
Вычислить определенный интеграл по методу "Монте-Карло" по формуле , Где n - число испытаний; G(x) - плотность распределения "вспомогательной" случайной...
-
Выбор группировочных признаков всегда должен быть основан на анализе качественной природы исследуемого явления. Всесторонний теоретико-экономический...
-
ТЕСНОТА И ЗНАЧИМОСТЬ СВЯЗИ - Многомерный статистический анализ
Соответствующий статистический вывод включает определение тесноты и значимости связи между Х и Y. Тесноту связи измеряют коэффициентом детерминации R 2 ....
-
Способ усреднения подынтегральной функции - Применение метода Монте-Карло в эконометрическом анализе
В качестве оценки определенного интеграла принимают , Где n - число испытаний; - возможные значения случайной величины X, распределенной равномерно в...
-
Показатели анализа ряда динамики - Методы анализа основной тендеции развития в рядах динамики
При изучении динамики общественных явлений возникает проблема описания интенсивности изменения и расчета средних показателей динамики. Анализ...
-
Метод сравнения является универсальным методом и применяется во всех разделах статистики (метод сравнения средних, оценивания неизвестных параметров и...
-
Составляется матрица численных значений базисных функций, соответствующая расширенной матрице спектра плана Вычисляется информационная матрица...
-
Понятие о рядах динамики - Методы анализа основной тендеции развития в рядах динамики
Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, т. е. их динамика. Эта задача решается при помощи...
-
Регрессия -- зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Задача регрессионного анализа...
-
Методы анализа взаимосвязи - Статистическое изучение взаимосвязи социально-экономических явлений
Первым и обязательным этапом изучения взаимосвязи социально-экономических явлений является качественный анализ природы явления методами экономической...
-
Модели теории игр. Основные определения и термины В разных областях целенаправленной деятельности, например при разработке и эксплуатации АСУ, часто...
-
Адсорбция активированный уголь Развитие теории адсорбционных сил еще не достигло такой стадии, когда по известным физико-химическим свойствам газа и...
Методы определения корреляционной связи - Корреляционно-регрессионный анализ