Корреляционно-регрессионный анализ данных - Геоинформатика

Изучение зависимостей между показателями инженерно-геологических свойств грунтов и выделение наиболее важных из них необходимо для правильной количественной оценки инженерно-геологических признаков и прогноза инженерно-геологических условий орошаемых территорий. Для этого используются методы многомерного корреляционнорегрессионного анализа и распознавания образов.

Зависимость между случайными величинами Х и У называем вероятностной или стохастической, при которой одна из них реагирует на изменение второй изменениями своего закона распределения. Коppеляционными называются такие зависимости, при которых одна из переменных реагирует на изменение второй изменениями своего математического ожидания.

Методы исследования зависимостей этого вида получили название корреляционного анализа, изучающего на основании выборки стохастическую зависимость между случайными переменными. Оцениваются мера зависимости и доверительные интервалы, проверяются гипотезы. Важной мерой зависимости является коэффициент корреляции Бравэ и Пирсона.

Для коэффициентов корреляции r двух случайных переменных Х и У

Справедливо:

    1) -1 < r < 1 2) при r = + 1 имеется функциональная зависимость; 3) если r= 0, то х и у называют некоррелированными; 4) для двумерной нормально распределенной случайной переменной из равенства r = 0 следует стохастическая независимость х и у.

В случае когда высоким значениям одной переменной соответствуют высокие значения другой переменной, а низким значениям - низкие, то корреляция между этими переменными положительная. Отрицательная корреляция имеет место там, где высоким значениям одной переменной соответствуют низкие значения другой переменной.

Абсолютное значение коэффициента корреляции характеризуют тесноту взаимосвязи. Коэффициенты корреляции рассчитываются для определений тесноты взаимосвязи между двумя какими-либо характеристиками одного и того же объекта (тела).

Параметр r оценивается с помощью выборочного коэффициента корреляции r1; r1 для случайной переменной, распределенной не по нормальному закону, с примерно линейной регрессией является мерой стохастической зависимости.

Различают: коэффициент корреляции (парный), частный коэффициент корреляции, множественный коэффициент корреляции, коэффициент корреляции рангов по Спирмэму и квадратный коэффициент.

Рассмотрим алгоритм корреляционного анализа. Пусть имеем n - проб, проанализированных по k - компонентам. Обозначим через

X11, x21,..., x1n - значения первого компонента;

X21, x22,..., x2n - значения второго компонента;

..........

Xk1, xk2,..., xkn - значения К-го компонента.

Для каждого компонента опpеделяются сpедные значения, дисперсии, среднеквадратичные отклонения и коэффициенты вариации по формулам, пpиведенные в п.2.3.1.

Обозначим через К(l, p) - корреляционный коэффициент j - й пробы пары компонентов (l, р), а через K(l, p) - общий корреляционный коэффициент этой пары. Указанные величины вычисляются по формулам:

XJ(l) 1 N xj(l) 1 N

KJ(l, p) = ------- , KОбщ (l, p) = --- ------ = --- KJ(l, p)

XJ(p) n J=1 xJ(p) n J=1

Для каждой пары компонентов ( , ) - выборочной коэффициент корреляции r (l, p) равен: N

(xJ(l) - x(l)) (xJ(p) - x(p))

R(l, p) = --NJ=1---------------N------------------.

(xJ(l) - x(l))2 (xJ(p) - x(p))2

J=1 j=1

Парагенетический анализ инженерно-геологических свойств грунтов имеет большое значение в практике инженерно - геологических исследований. Связи между отдельными парами компонентов, зависимость одного компонента от сопутствующих ему других устанавливаются с помощью корреляционного анализа. При этом мы получаем точную количественную характеристику отношений между компонентами.

При малом объеме выборки значение r(l, р) получается несколько заниженным. В этом случае ( n < 10) лучше использовать для (l, р) следующую оценку

1 - r2(l, p)

R* (l, p) = r(l, p)[ 1+ -------------].

2(n - 3)

Наличие или отсутствие корреляционной связи проверяется по вычисленному значению выборочного коэффициента корреляции. Для этого используется несколько критериев, обычно критерий t = r(n-2)/(1-r2 ), который имеет t - распределение с n-2 степенями свободы, где n - число испытаний. Вычисленные по этой формуле максимальные значения выборочного коэффициента корреляции, при которых еще оправдывается нулевая гипотеза r1 = 0, приведены в книге (Комаров, 1972), где r1 = cov(x, y)/ X Y- коэффициент корреляции. Если значение t - превысит табличное значение при данных и n-2, то зависимость считается установленной.

Обычно мы должны считать, что корреляция между двумя определенными переменными определяется другой переменной. Если мы рассматриваем зависимость от более чем двух случайных переменных, то предполагаем, что наблюдаемая выборка относится к нормальной многомерной генеральной совокупности. В качестве меры взаимозависимости между любыми двумя случайными переменными в этом случае может использоваться частная корреляция. Она выражает степень зависимости между двумя переменными при постоянных значениях остальных переменных

Если имеется линейная корреляция Х, У, и Z и Rху, Rхz, Rуz - - три парных коэффициента корреляции, то Rху. z есть частный коэффициент корреляции между Х и У при постоянном Z:

Rxy - Rxz Ryz

Rxy. z = --------------------------

(1 - R2Xz)(1 - R2Yx)

Частная корреляция выявляет зависимые переменные (по меньшей мере две) из независимых переменных. Точка в индексе Rху. z отделяет две первые независимые переменные Х и У от независимой переменной Z.

В общем случае: рассмотрим m случайных величин 1, 2,... M, являющихся моделями геологических характеристик x1, x2,..., xm.

Пусть q - набор индексов 1, 2,..., m без i и j. Тогда коэффициентом частной корреляции между I и J при фиксированных m-2 оставшихся величинах называется величина

- Cij

Pij. q = ----------

Cii Cjj

Где Сij - алгебраическое дополнение, соответствующее элементу Pij в определителе корреляционной матрицы

1 P12 ... P1m

С = P21 1 ... P2m

..........

Pm1 Pm2 ... 1

Справедливо соотношение СIj =|C| C-1

Обозначим через р набор индексов 1, 2,..., m без i, j, к.

Тогда Pij. q можно выразить через коэффициенты частной кореляции на единицу меньших порядков

Pij. p - Pik. p Pjk. p

Pij. q = -----------------------------

(1 - P2Ik. p)(1 - P2Jk. p)

Выборочным коэффициентом частной корреляции Rij. q случайных величин I и J, являющихся моделями геологических характеристик Хi и Хj, при фиксированных m-2 оставшихся величинах называется отношение

Bij

Rij. q = - ----------,

Bii Bjj

Где Вij - алгебраическое дополнение выборочной корреляционной матрицы

{ Rij } случайных величин 1....., M, Соответствующее элементу Rij.

Распределение Rij. q построенное по n наблюдениям Хt, совпадает с распределением выборочного коэффициента парной корреляции Rij с заменой n на n-m+2, так что для оценки значимости коэффициента частной корреляции применим аналогичный критерий для коэффициента парной корреляции с уменьшением числа степеней свободы на m-2.

Если возникает вопрос, каким образом зависит случайная переменная Х1 одновременно от случайных переменных Х2 и Х3, то мы можем рассмотреть объект с одной выходной и двумя входными переменными; зависимость это определяется множественным коэффициентом корреляции R1.23.

Этот коэффициент множественной корреляции задается выражением

R212 + R213 - 2 R12 R13 R23

R 1.23 = ---------------------------------------------- .

1 - R223

Множественная корреляция определяет связь выходной переменной (так называемой зависимой переменной) с по меньшей мере двумя входными переменными (так называемыми независимыми переменными). Тогда в обозначении R1.23 отделяет выходную переменную от двух входных переменных. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации В=R.

В общем случае: для характеристики зависимости одной случайной величины I- модели одной геологической характеристики от совокупности других случайных величин 1, 2 M, служит коэффициент множественной корреляции. Пусть k - набор индексов

1, 2,..., i-1, i+1,..., m. Коэффициентом множественной корреляции Ri. k случайной величины от набора случайных величин 1, 2,..., I=1, i+1....... M называется величина

Ri. k = 1 - 1/Cii)

Где СIi - диагональный элемент матрицы С-1, обратной корреляционной матрице С.

Справедливо соотношение

M

R1.k = 1 - П (1 - R2 ij. LJ) ,

J=1,j=i

Связывающее коэффициент множественной корреляции с набором из m - 1 коэффициентов частной корреляции Rij. k между i и j при фиксированных величинах 1, 2,..., J-1 , но без I (таким образом, Lj есть множество индексов 1, 2,..., j-1, но без i ).

Выборочным коэффициентом множественной корреляции Ri. k между величиной I и набором 1,..., I-1, I+1,..., m называется величина Ri. k = 1 (1/Cii, где Cii - диагональный элемент матрицы С-1 , обратной матрице выборочных коэффициентов корреляции.

Ранговый аналог множественного коэффициента корреляции определяется в обозначениях частной ранговой корреляции по формуле

Rk. ij = 1 - (1 - R2 kj)(1 - R2 ki. j).

Если нужно определить взаимозависимость между рядами, распределенными не по нормальному закону, т. е. двумерная выборка(Хi, Уj) относится к производному непрерывному распределению, то можно зависимость между У и Х установить с помощью коэффициента ранговой корреляции Спирмэна

RS = 1 - (6d2 ) /n(n-1). (2.58)

Для вычисления коэффициента ранговой корреляции ( справедливо -1 < rS< 1 ) оба ряда преобразуются с помощью рангов; образуются разности для n пар рангов, они возводятся в квадрат и суммируются; значение Д2 используется в приведенной выше формуле. Равным значениям соответствует среднее ранговое число. Если два pяда pангов pавны, pазности pавны нулю и rS= -1. Если ряды рангов обратны, то rS = 1. Этот критерий позволяет тем самым ответить на вопрос ознаке имеющейся корреляции.

Одна из наиболее важных задач геологических исследований заключается в изучении зависимостей ( функциональных ) между показателями свойств и состава пород. При этом большую помощь могут оказать методы многомерного регрессионного анализа. На основании регрессионного анализа наблюдаемое облако точек аппроксимируется уравнением регрессии.

Цель регрессионного анализа заключается в том, чтобы на основании эмпирической функции Уi(Xi) найти аналитическое соотношение между У и Х, которое позволит для произвольно заданного значения Х оценить значение зависимой переменной У (Комаров, 1972, 1976). Зависимость между показателями свойств грунтов могут быть ленейными и нелинейными. Линейные регрессионные модели имеют вид:

У = A0 + Ai Xi + E

Где У - зависимая переменная;

Хi - независимые переменные( i=1, k );

E - остаток;

Ai - коэффициенты регрессионного уравнения, подлежащие оцениванию.

Коэффициенты регрессионных уравнений определяются методом наименьших квадратов.

Для этого запишем У как функцию не только аргумента Х, но и параметров A0, A1, A3,...,Ak:

У = f(X; A0, A1,..., Ak).

Требуется выбрать A0, A1,..., Ak так, чтобы выполнялось условие:

(Уj - A0 - Ai Xij)2 = min E2J

Найдем значения Ai (i=1, k), обращающие левую часть выражения (2.59) в минимум. Для этого продифференцируем ее по Ai

(i=1, к) и приравняем прoизводные к нулю:

F N K

---- = -2 (Уj - A0 - Ai Xij) = 0

A0 I=1 i=1

F N k

---- = -2 (Уj - A0 - Ai Xij) X1j = 0

A1 J=1 i=1

F N k

---- = -2 (Уj - A0 - Ai Xij) Xkj = 0

Ak J=1 i=1

Заменим переменные A0, A1,..., Ak на их оценкии получим систему нормальных уравнений:

N n n n

A0 n + A1 X1j + A2 X2j +... + AkXkj = Уj

1 2 1 1 1

A0 X1j + A1 X1j + A2 X2j X1j +... + Ak Xkj X1j = Уj X1j....

A0 Xkj + A1 X1j Xkj + A2 X2j Xkj +... + Ak X2 kj = Уj Xkj

Система уравнений (2.6) содержит столько же уравнений, сколько неизвестных Ai (i=1,к). Полученная система нормальных уравнений решается по методу Крамера или Гаусса.

Для проверки достоверности уравнения используется формула:

A0 = У - Ai Xi

Где У - среднее значение зависимой переменной;

Хi - средние значения независимых переменных;

Ai - коэффициенты уравнения регрессии.

Во многих случаях графическое представление данных показывает, что интересующая нас зависимость не может быть описана прямой линией. В этих случаях используется нелинейная регрессия.

Очень часто достаточно точным для описания фактической взаимозависимости является уравнение второго порядка ( У = а + b X + c X ),

Где коэффициенты а, в, с определяется снова методом наименьших квадратов. При изучении регрессионных зависимостей для двух факторов существуют несколько функциональных зависимостей.

При изучении регриссионных зависимостей несколькими факторами, в качестве нелинейной регрессионной модели используется модель в виде:

У = B0 + Bj Xj + BK+1 X21 + BK+2 X1 X2 +...

Коэффициенты этой модели снова определяются методом наименьших квадратов. Достоверности полученных уравнений регрессии определяются методом оценки относительных ошибок параметра его разности фактических и расчетных значений.

Похожие статьи




Корреляционно-регрессионный анализ данных - Геоинформатика

Предыдущая | Следующая