Корреляционно-регрессионный анализ данных - Геоинформатика
Изучение зависимостей между показателями инженерно-геологических свойств грунтов и выделение наиболее важных из них необходимо для правильной количественной оценки инженерно-геологических признаков и прогноза инженерно-геологических условий орошаемых территорий. Для этого используются методы многомерного корреляционнорегрессионного анализа и распознавания образов.
Зависимость между случайными величинами Х и У называем вероятностной или стохастической, при которой одна из них реагирует на изменение второй изменениями своего закона распределения. Коppеляционными называются такие зависимости, при которых одна из переменных реагирует на изменение второй изменениями своего математического ожидания.
Методы исследования зависимостей этого вида получили название корреляционного анализа, изучающего на основании выборки стохастическую зависимость между случайными переменными. Оцениваются мера зависимости и доверительные интервалы, проверяются гипотезы. Важной мерой зависимости является коэффициент корреляции Бравэ и Пирсона.
Для коэффициентов корреляции r двух случайных переменных Х и У
Справедливо:
- 1) -1 < r < 1 2) при r = + 1 имеется функциональная зависимость; 3) если r= 0, то х и у называют некоррелированными; 4) для двумерной нормально распределенной случайной переменной из равенства r = 0 следует стохастическая независимость х и у.
В случае когда высоким значениям одной переменной соответствуют высокие значения другой переменной, а низким значениям - низкие, то корреляция между этими переменными положительная. Отрицательная корреляция имеет место там, где высоким значениям одной переменной соответствуют низкие значения другой переменной.
Абсолютное значение коэффициента корреляции характеризуют тесноту взаимосвязи. Коэффициенты корреляции рассчитываются для определений тесноты взаимосвязи между двумя какими-либо характеристиками одного и того же объекта (тела).
Параметр r оценивается с помощью выборочного коэффициента корреляции r1; r1 для случайной переменной, распределенной не по нормальному закону, с примерно линейной регрессией является мерой стохастической зависимости.
Различают: коэффициент корреляции (парный), частный коэффициент корреляции, множественный коэффициент корреляции, коэффициент корреляции рангов по Спирмэму и квадратный коэффициент.
Рассмотрим алгоритм корреляционного анализа. Пусть имеем n - проб, проанализированных по k - компонентам. Обозначим через
X11, x21,..., x1n - значения первого компонента;
X21, x22,..., x2n - значения второго компонента;
..........
Xk1, xk2,..., xkn - значения К-го компонента.
Для каждого компонента опpеделяются сpедные значения, дисперсии, среднеквадратичные отклонения и коэффициенты вариации по формулам, пpиведенные в п.2.3.1.
Обозначим через К(l, p) - корреляционный коэффициент j - й пробы пары компонентов (l, р), а через K(l, p) - общий корреляционный коэффициент этой пары. Указанные величины вычисляются по формулам:
XJ(l) 1 N xj(l) 1 N
KJ(l, p) = ------- , KОбщ (l, p) = --- ------ = --- KJ(l, p)
XJ(p) n J=1 xJ(p) n J=1
Для каждой пары компонентов ( , ) - выборочной коэффициент корреляции r (l, p) равен: N
(xJ(l) - x(l)) (xJ(p) - x(p))
R(l, p) = --NJ=1---------------N------------------.
(xJ(l) - x(l))2 (xJ(p) - x(p))2
J=1 j=1
Парагенетический анализ инженерно-геологических свойств грунтов имеет большое значение в практике инженерно - геологических исследований. Связи между отдельными парами компонентов, зависимость одного компонента от сопутствующих ему других устанавливаются с помощью корреляционного анализа. При этом мы получаем точную количественную характеристику отношений между компонентами.
При малом объеме выборки значение r(l, р) получается несколько заниженным. В этом случае ( n < 10) лучше использовать для (l, р) следующую оценку
1 - r2(l, p)
R* (l, p) = r(l, p)[ 1+ -------------].
2(n - 3)
Наличие или отсутствие корреляционной связи проверяется по вычисленному значению выборочного коэффициента корреляции. Для этого используется несколько критериев, обычно критерий t = r(n-2)/(1-r2 ), который имеет t - распределение с n-2 степенями свободы, где n - число испытаний. Вычисленные по этой формуле максимальные значения выборочного коэффициента корреляции, при которых еще оправдывается нулевая гипотеза r1 = 0, приведены в книге (Комаров, 1972), где r1 = cov(x, y)/ X Y- коэффициент корреляции. Если значение t - превысит табличное значение при данных и n-2, то зависимость считается установленной.
Обычно мы должны считать, что корреляция между двумя определенными переменными определяется другой переменной. Если мы рассматриваем зависимость от более чем двух случайных переменных, то предполагаем, что наблюдаемая выборка относится к нормальной многомерной генеральной совокупности. В качестве меры взаимозависимости между любыми двумя случайными переменными в этом случае может использоваться частная корреляция. Она выражает степень зависимости между двумя переменными при постоянных значениях остальных переменных
Если имеется линейная корреляция Х, У, и Z и Rху, Rхz, Rуz - - три парных коэффициента корреляции, то Rху. z есть частный коэффициент корреляции между Х и У при постоянном Z:
Rxy - Rxz Ryz
Rxy. z = --------------------------
(1 - R2Xz)(1 - R2Yx)
Частная корреляция выявляет зависимые переменные (по меньшей мере две) из независимых переменных. Точка в индексе Rху. z отделяет две первые независимые переменные Х и У от независимой переменной Z.
В общем случае: рассмотрим m случайных величин 1, 2,... M, являющихся моделями геологических характеристик x1, x2,..., xm.
Пусть q - набор индексов 1, 2,..., m без i и j. Тогда коэффициентом частной корреляции между I и J при фиксированных m-2 оставшихся величинах называется величина
- Cij
Pij. q = ----------
Cii Cjj
Где Сij - алгебраическое дополнение, соответствующее элементу Pij в определителе корреляционной матрицы
1 P12 ... P1m
С = P21 1 ... P2m
..........
Pm1 Pm2 ... 1
Справедливо соотношение СIj =|C| C-1
Обозначим через р набор индексов 1, 2,..., m без i, j, к.
Тогда Pij. q можно выразить через коэффициенты частной кореляции на единицу меньших порядков
Pij. p - Pik. p Pjk. p
Pij. q = -----------------------------
(1 - P2Ik. p)(1 - P2Jk. p)
Выборочным коэффициентом частной корреляции Rij. q случайных величин I и J, являющихся моделями геологических характеристик Хi и Хj, при фиксированных m-2 оставшихся величинах называется отношение
Bij
Rij. q = - ----------,
Bii Bjj
Где Вij - алгебраическое дополнение выборочной корреляционной матрицы
{ Rij } случайных величин 1....., M, Соответствующее элементу Rij.
Распределение Rij. q построенное по n наблюдениям Хt, совпадает с распределением выборочного коэффициента парной корреляции Rij с заменой n на n-m+2, так что для оценки значимости коэффициента частной корреляции применим аналогичный критерий для коэффициента парной корреляции с уменьшением числа степеней свободы на m-2.
Если возникает вопрос, каким образом зависит случайная переменная Х1 одновременно от случайных переменных Х2 и Х3, то мы можем рассмотреть объект с одной выходной и двумя входными переменными; зависимость это определяется множественным коэффициентом корреляции R1.23.
Этот коэффициент множественной корреляции задается выражением
R212 + R213 - 2 R12 R13 R23
R 1.23 = ---------------------------------------------- .
1 - R223
Множественная корреляция определяет связь выходной переменной (так называемой зависимой переменной) с по меньшей мере двумя входными переменными (так называемыми независимыми переменными). Тогда в обозначении R1.23 отделяет выходную переменную от двух входных переменных. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации В=R.
В общем случае: для характеристики зависимости одной случайной величины I- модели одной геологической характеристики от совокупности других случайных величин 1, 2 M, служит коэффициент множественной корреляции. Пусть k - набор индексов
1, 2,..., i-1, i+1,..., m. Коэффициентом множественной корреляции Ri. k случайной величины от набора случайных величин 1, 2,..., I=1, i+1....... M называется величина
Ri. k = 1 - 1/Cii)
Где СIi - диагональный элемент матрицы С-1, обратной корреляционной матрице С.
Справедливо соотношение
M
R1.k = 1 - П (1 - R2 ij. LJ) ,
J=1,j=i
Связывающее коэффициент множественной корреляции с набором из m - 1 коэффициентов частной корреляции Rij. k между i и j при фиксированных величинах 1, 2,..., J-1 , но без I (таким образом, Lj есть множество индексов 1, 2,..., j-1, но без i ).
Выборочным коэффициентом множественной корреляции Ri. k между величиной I и набором 1,..., I-1, I+1,..., m называется величина Ri. k = 1 (1/Cii, где Cii - диагональный элемент матрицы С-1 , обратной матрице выборочных коэффициентов корреляции.
Ранговый аналог множественного коэффициента корреляции определяется в обозначениях частной ранговой корреляции по формуле
Rk. ij = 1 - (1 - R2 kj)(1 - R2 ki. j).
Если нужно определить взаимозависимость между рядами, распределенными не по нормальному закону, т. е. двумерная выборка(Хi, Уj) относится к производному непрерывному распределению, то можно зависимость между У и Х установить с помощью коэффициента ранговой корреляции Спирмэна
RS = 1 - (6d2 ) /n(n-1). (2.58)
Для вычисления коэффициента ранговой корреляции ( справедливо -1 < rS< 1 ) оба ряда преобразуются с помощью рангов; образуются разности для n пар рангов, они возводятся в квадрат и суммируются; значение Д2 используется в приведенной выше формуле. Равным значениям соответствует среднее ранговое число. Если два pяда pангов pавны, pазности pавны нулю и rS= -1. Если ряды рангов обратны, то rS = 1. Этот критерий позволяет тем самым ответить на вопрос ознаке имеющейся корреляции.
Одна из наиболее важных задач геологических исследований заключается в изучении зависимостей ( функциональных ) между показателями свойств и состава пород. При этом большую помощь могут оказать методы многомерного регрессионного анализа. На основании регрессионного анализа наблюдаемое облако точек аппроксимируется уравнением регрессии.
Цель регрессионного анализа заключается в том, чтобы на основании эмпирической функции Уi(Xi) найти аналитическое соотношение между У и Х, которое позволит для произвольно заданного значения Х оценить значение зависимой переменной У (Комаров, 1972, 1976). Зависимость между показателями свойств грунтов могут быть ленейными и нелинейными. Линейные регрессионные модели имеют вид:
У = A0 + Ai Xi + E
Где У - зависимая переменная;
Хi - независимые переменные( i=1, k );
E - остаток;
Ai - коэффициенты регрессионного уравнения, подлежащие оцениванию.
Коэффициенты регрессионных уравнений определяются методом наименьших квадратов.
Для этого запишем У как функцию не только аргумента Х, но и параметров A0, A1, A3,...,Ak:
У = f(X; A0, A1,..., Ak).
Требуется выбрать A0, A1,..., Ak так, чтобы выполнялось условие:
(Уj - A0 - Ai Xij)2 = min E2J
Найдем значения Ai (i=1, k), обращающие левую часть выражения (2.59) в минимум. Для этого продифференцируем ее по Ai
(i=1, к) и приравняем прoизводные к нулю:
F N K
---- = -2 (Уj - A0 - Ai Xij) = 0
A0 I=1 i=1
F N k
---- = -2 (Уj - A0 - Ai Xij) X1j = 0
A1 J=1 i=1
F N k
---- = -2 (Уj - A0 - Ai Xij) Xkj = 0
Ak J=1 i=1
Заменим переменные A0, A1,..., Ak на их оценкии получим систему нормальных уравнений:
N n n n
A0 n + A1 X1j + A2 X2j +... + AkXkj = Уj
1 2 1 1 1
A0 X1j + A1 X1j + A2 X2j X1j +... + Ak Xkj X1j = Уj X1j....
A0 Xkj + A1 X1j Xkj + A2 X2j Xkj +... + Ak X2 kj = Уj Xkj
Система уравнений (2.6) содержит столько же уравнений, сколько неизвестных Ai (i=1,к). Полученная система нормальных уравнений решается по методу Крамера или Гаусса.
Для проверки достоверности уравнения используется формула:
A0 = У - Ai Xi
Где У - среднее значение зависимой переменной;
Хi - средние значения независимых переменных;
Ai - коэффициенты уравнения регрессии.
Во многих случаях графическое представление данных показывает, что интересующая нас зависимость не может быть описана прямой линией. В этих случаях используется нелинейная регрессия.
Очень часто достаточно точным для описания фактической взаимозависимости является уравнение второго порядка ( У = а + b X + c X ),
Где коэффициенты а, в, с определяется снова методом наименьших квадратов. При изучении регрессионных зависимостей для двух факторов существуют несколько функциональных зависимостей.
При изучении регриссионных зависимостей несколькими факторами, в качестве нелинейной регрессионной модели используется модель в виде:
У = B0 + Bj Xj + BK+1 X21 + BK+2 X1 X2 +...
Коэффициенты этой модели снова определяются методом наименьших квадратов. Достоверности полученных уравнений регрессии определяются методом оценки относительных ошибок параметра его разности фактических и расчетных значений.
Похожие статьи
-
Обработка данных показателей свойств грунтов с применением методов математической статистики дополняет качественный анализ инженерно-геологической...
-
В качестве исходных данных для статистического анализа взяты ежегодные цены на нефть Urals c 1999 по 2007года в России (см. таблицу №1). Источник:...
-
Данные анализа Фурье, Заключение - Определение геоцентра из SLR
На рис. 12 изображен график спектральной плотности мощности СПМ X - координаты, полученный преобразованием Фурье автоковариационной функции На Рис. 13...
-
Подбор скважин, подготовка данных и проектирование ГРП При выборе кандидатов для ГРП необходимо сделать следующие шаги: - сбор данных о характеристиках...
-
Карта фактического материала Масштаб 1:2000 Геолого-литологические колонки опорных скважин Скважина № 31, Н = 16,5м Геологический Индекс Отметка подошвы...
-
Анализ исходных данных Угол падения пласта 8° - залегание пологое; мощности пластов 1,1; 2,4; 2,6; 1,5 м - тонкие пласты и пласты средней мощности...
-
Основным источником сведений о численности и составе населения является перепись населения. Она дает наиболее полную и точную информацию о составе...
-
Состав и объем инженерно-геологических изысканий Строительная площадка № 6 размером 82*22 м. Поверхность площадки имеет абсолютные отметки -...
-
При изучении инженерно-геологических свойств грунтов образцы и монолиты отбираются из шурфов и скважин, затем лабораторным путем определяются числовые...
-
Карта фактического материала Рис. 1 Геолого-литологические колонки опорных скважин Таблица 1 Скважина №19 Н=12,0м Таблица 2 Скважина №20 Н=10,0м Таблица...
-
С использованием ГИС на базе Arcview 3.2a программы можно провести многочисленные анализы. ГИС-анализ упрощает процесс описания месторождений полезных...
-
Петрофизические исследования проводятся с целью установления связей между физическими свойствами и геофизическими параметрами. Для количественной оценки...
-
Постановка задачи - Анализ системы уравнений Сен-Венана аналитическими и численными методами
Важной задачей гидравлики открытых потоков является построение и изучение математической модели движения жидкости, которая позволяет осуществить расчет и...
-
Одной из главных задач инженерной геологии на современном этапе ее развития является исследование закономерностей пространственно - - временной...
-
Методы увеличения нефтеотдачи Часто бывает необходимым увеличение продуктивности (приемистости) скважины. Почти каждая скважина может быть рассмотрена...
-
Многомерный анализ сингулярного спектра (MSSA) - Определение геоцентра из SLR
Сингулярный спектральный анализ является подходом к исследованию состава сигнала, так же именуемым методом "гусеницы-ССА". Разложив сигнал по...
-
Определение нормы годового стока при наличии и недостаточности данных гидрометрических наблюдений Определим годовой расход воды вероятностью превышения...
-
Применим предложенные выше методы решения системы уравнений Сен-Венана для расчета основных параметров паводковой волны в русле реки Кубань. Вычислим эти...
-
Режим изменчивости геологических параметров в характерных направлениях - Геоинформатика
Под инженерно-геологической изменчивостью горных пород подразумевается изменение значений показателей физико-технических свойств пород как по глубине,...
-
Спектральный анализ - Методы изучения элементного состава минерального вещества
Спектральные методы являются наиболее распространенным видом исследования элементного состава вещества. Они широко используются для анализа как жидких,...
-
Кратные волны Одна из главных проблем, стоящих перед сейсмоакустикой в условиях мелководья, проблема подавления кратных волн, связанных со свободной...
-
Методы увеличения нефтеотдачи Часто бывает необходимым увеличение продуктивности (приемистости) скважины. Почти каждая скважина может быть рассмотрена...
-
Целесообразность операций ГРП на месторождениях региона не вызывает сомнения, то вопрос об эффективности применения физико - химических методов в...
-
Таблица 1 Pзаб, МПа Qат, мі/сут 1,5 124000 1,6 76000 1,6 36000 1,66 14000 В ходе проведения исследований были установлены следующие значения для...
-
Каждый коэффициент неоднородности используется для определения отдельных параметров пласта, которые сами по себе очень важны, но мало информативны, так...
-
После принятия к реализации проектного документа, определяющего разработку нефтяного месторождения, приступают к разбуриванию месторождения, его...
-
Традиционно включает в себя конечно-разностные методы решения соответствующего волнового уравнения. Базовыми исходными уравнениями при этом считаются...
-
Анализ точности создания геодезической основы при высотном строительстве
Введение Конструкции высотных зданий непрерывно совершенствуются и становятся все более разнообразными. Не менее специфичны и отдельные конструкции и...
-
Введение - Анализ геологической карты и карты тектонической структуры
Курсовой проект подводит итоги изучения важнейшей части курса структурной геологии, посвященной формам залегания горных пород и способам их изображения...
-
Замеры забойного давления в фонтанирующих добывающих скважинах месторождения Алибекмола проводятся двумя способами: 1) путем прямого замера глубинным...
-
Сравнительный анализ месячных сумм осадков на западе и востоке Казахстана в холодное время года
Сравнительный анализ месячных сумм осадков на западе и востоке Казахстана в холодное время года В работе приведен анализ статистических характеристик...
-
Анализ Фурье - Определение геоцентра из SLR
Фурье анализ является основным методом спектрального анализа сигналов. Общий случай ряда фурье по ортогональной системе действительных чисел gk(t),...
-
Курсовая работа содержит текстовую часть в виде пояснительной записки и графического материала. В соответствии с правилами ГОСТ 2.105-79 текстовая часть...
-
Санитарные требования - Анализ разработки Комсомольского газового месторождения
На газодобывающем предприятии работы часто проводятся на открытом воздухе, поэтому они связаны с воздействием на работающих различных метеорологических...
-
Компьютерная обработка аэрокосмических снимков Для ГИС, предназначенной для решения различных научно-практических задач, важно использование информации,...
-
Методические основы применения математических методов для решения задач - Геоинформатика
С развитием вычислительной техники значительно расширилась область применения математических методов при обработке, оценке и анализе...
-
Зону понижения скорости распространения колебаний в газонасыщенной части пласта можно рассматривать как низкоскоростную неоднородность внутри слоистой...
-
Анализ смертности населения - Демография Челябинской области
Исследуем смертность в субъекте. Рассмотрим повозрастные коэффициенты смертности. Произведем стандартизацию коэффициентов смертности. Построим таблицы...
-
Выбор скважин-кандидатов - Анализ эффективности гидроразрыва пласта на Ельниковском месторождении
На основании выше изложенного мы провели детальный анализ всего добывающего фонда скважин Ельниковского месторождения: работа скважины; проведенные на...
-
Анализ изменений численности населения - Демография Челябинской области
Исследуем изменение общей численности населения и рассмотрим изменение численности городского и сельского населения. Рассчитаем темпы роста и прироста...
Корреляционно-регрессионный анализ данных - Геоинформатика