Первичная статистическая обработка информации и изучения законов распределения случайных функций геологических параметров пород - Геоинформатика

При изучении инженерно-геологических свойств грунтов образцы и монолиты отбираются из шурфов и скважин, затем лабораторным путем определяются числовые значения их показателей. Полученная информация обрабатывается, анализируется, обобщается. Таким образом она распространяется на весь массив грунтов. Если образцы и монолиты отбираются из шурфов и скважин случайным образом, тогда вся информация по свойствам грунтов представляется случайными величинами, которые создают в пространстве статистические совокупности. Совокупность, включающая все потенциально возможные члены, именуется в математической статистике "генеральной совокупностью". Генеральная совокупность может быть конечной или бесконечной в зависимости от того, конечным или бесконечным может быть число всех потенциально возможных наблюдений. При практических работах изучить все члены генеральной совокупности невозможно и не нужно, так как достаточно достоверные выводы можно сделать, исследуя только некоторые из них. Такая уменьшенная по объему совокупность называется выборочной или сокращенно "выборкой". Для того чтобы оценить параметры генеральной совокупности по выборочным данным и решить другие задачи статистических исследований, необходимо в первую очередь подобрать теоретическую модель, которая бы наилучшим образом описывала эмпирическое распределение.

Функция распределения играет главную роль при статистической обработке данных. Обычно распределение изображается в виде наглядных графиков. При этом статистические результаты, видимо, легче понять, если воспринимать их как облик распределения.

Если известно, что некоторый экспериментальный процесс характеризуется определенным типом распределения, то сравнение наблюдаемых данных с данными экспериментального опробования составляет проверку случайности отбора наблюдений. Знание вида распределения позволяет предсказать выборочное распределение определенной оценки, например выборочного среднего и дисперсии при нормальном распределении. Это в свою очередь приводит к задачам проверки гипотез и проблемам оценки неизвестных параметров по статистической выборке, т. е. во многих геологических исследованиях требуется дать сводное описание совокупности значений изучаемой характеристики. Для этих целей одного среднего значения или среднего и дисперсии, бывает недостаточно. Требуется еще указать вид функции, которая описывает данное эмпирическое распределение. Знание этого вида необходимо еще и для того, чтобы сознательно выбирать по возможности эффективные критерии и статистические оценки параметров, соответствующие установленному распределению при решении геоэкологических задач.

Общая постановка задачи в виде функции распределения и ее проверке заключается в следующем: допустим, что в нашем распоряжении имеется выборка объема n, элементы которой мы обозначим хI (i=1,n) и пусть F(x) неизвестная функция распределения, оцениваемая по выборке. Обозначим через FO(x) заданную функцию распределения, которую предполагает использовать в качестве модели изучаемого распределения. Таким образом, задача заключается в проверке гипотезы HO: F(x)=FO(x) при альтернативе H1: F(x)=FO(x). Проверка законов распределения параметров должна производиться в пределах однородных геологических тел, поэтому площадь исследований необходимо разделить на сходные в генетическом, возрастном и литологическом отношения тела. Первичная статистическая обработка информации начинается прежде всего с исключения грубых ошибок из выборок. В большинстве случаев отдельные результаты определений вызывают у геолога сомнения только по той причине, что они заметно отличаются по величине от всех других. сомнительными бывают так называемые "крайние" значения. Они в основном обусловлены наличием линз, включений и трещин в горной породе, либо методикой исследований (нарушения структуры образцов, неточность приборов, ошибки при взятии от счетов и пр.) в пределах геологических тел. Для исключения из обработки "крайних" значений исследуемого показателя свойств горных пород существует ряд методов, например, метод трех сигм (при n<30 ),где n - объем выборки (Комаров, 1972, Шарапов, 1965). Он основан на том, что в нормально распределенных совокупностях вероятность отклонения отдельного значения случайной величины Х от ее математического ожидания, равного или превышающего 3, равна 0.0027,т. е. составляет менее 0.3%. Это позволяет считать, что такие отклонения практически невозможны, а если они имеются в выборке, их следует рассматривать как грубые ошибки. Интересно установить величину ошибки, которая может быть допущена в том случае, если распределение отличается от нормального.

Для одновершинного симметричного распределения можно воспользоваться неравенством Гаусса, согласно которому

P{¦ x - ¦> k } < 4/9k 2

Если принять величину отклонения К=3, получим

P{¦ x - ¦> 3 } < 4/81 = 0.0494

Таким образом, вероятность отклонения отдельного значения x переменной X от математического ожидания, превышающего 3 (при одновершинном симметричном распределении), составляет около 5%. При распределении любой формы вероятность ошибки может быть уже значительно больше.

Так, согласно неравенству Чебышева:

P{¦ x - ¦> 3 } = 0.111

В этом случае вероятность ошибки может превысить 10%, поэтому правило трех сигм можно применить при любых одновершинных симметричных распределениях. При прочих видах распределений им не следует пользоваться так как это может повлечь за собой неверные выводы. Описываемое правило обладает одним существенным недостатком - оно не учитывает влияние числа испытаний. Однако известно, что как бы ни была мала вероятность появления тех или иных значений случайной величины, они все - таки могут встретиться в совокупности, если сделать большое число испытаний. В связи с этим при большом объеме наблюдений применяется критерий нормированного отклонения:

XI - x

I = --------, (i=1,n)

Где x - среднее значение показателя свойств грунтов;

S - выборочное стандартное отклонение;

XI - численные значения показателя свойств грунтов;

N - объем выработки.

Согласно этому критерию крайнее значение xI (i=1,n) отбрасывается как грубо ошибочное (на уровне значимости - ), если

I (i=1,n), где - табличные значения нормированного отклонения (Комаpов, 1972).

Cлучайные величины могут быть непрерывными и дискретными.

Случайная величина называется непрерывной, если существует такая функция X f(x)>0 и удовлетворять F(x) = f(x)dx условию для всех для всех x.

Где P( x < X < x+ x )

F(x) = lim ----------------------------

X x

Называется функция плотности распределения вероятностей, F(x)=P(X<x) функция распределения вероятностей случайных величин, которые удовлетворяют следующие соотношения:

1) P( a < X < b ) = F(b) - F(a)

F(x1) < F(x2), если x1<x2

3) lim F(x) = 1, lim F(x)=0

x x

F(x) > 0, f(x) = dF(x)/dx

5) f(x)dx = 1, P( a < x < b ) = f(x)dx. - a

Дискретной случайной величиной называется переменная, общая совокупность (множество) которой может быть представлена в форме определенной занумерованной последовательности x1, x2,..., xn.

Дискретная величина x* принимает конечное или счетное значение x с вероятностью P(x) = P(X=x). Bероятность того, что величина X принимает одно значение, лежащих в интервале x' x x'',

X''

P{ x X x } = p (x).

Если определим вероятность появления всех X в интервале

< X < x, то F(x)=P(- < X < x ) называется функцией распределения вероятности случайной величины X.

Далее рассматриваем несколько типов законов распределения параметров. Нормальное или Гауссовое распределение случайных величин наиболее распространено и широко применяется среди различных видов распределений.

Нормальное распределение часто используется как физическая модель, оно является главным видом распределения в параметрическом статистическом анализе.

Формула для кривой распределения

1 1 x -

F(x) = ----------- exp ( - --- ( ----------- ) 2 )

2 2

Называется стандартной нормальной кривой - плотность распределения.

Параметры нормальных распределений, по которым их можно различать, является среднее и среднеквадратическое отклонение

. Если задана некоторая частная нормальная кривая, то и фиксированы, а изменения f(x) в зависимости от X можно получить.

Соотношение между функцией распределения и функцией плотности такова

F(x) = f(x)dx, т.е. функция нормального распределения равны

1 X 1 x -

F(x) = ------- exp(- --- ( ---------- )2 ) dx

2 - 2

Графическое отображение функцией распределения называется гистограммой. В зависимости от и функция плотности распределения имеет различную форму. При =0 и =1 функция F(x) называется функцией Лапласа, она обозначается в математической статистике

1 Z u2

Ф(z) = ----- exp( - --- ) du,

2 0 2

Которая используется при решении различных задач математической статистики, например, вероятность случайной переменной в пределах

X1 до x2 может быть определено с помощью функции Лапласа

X2 - x1 -

P( x1 < X < x2 ) = Ф( ----------- ) - Ф( ------------ )

Где среднее значение с. в., а дисперсия, Ф(z) значение определяется в таблице.

К методам нормального распределения относится метод критерия согласия (асимметрия и эксцесс) и метод критерия Пирсона.

В случае утверждения нулевой гипотезы о законе нормального распределения величины xI (i=1,n) мы можем говорить об однородности выборки, в другом случае - должны искать причины или границы неоднородности. Причиной может быть наличие в совокупности данных двух или нескольких однородных распределений.

Для определения закона распределения нормального показателя свойств горных пород вычислим статистические характеристики распределения этих показателей:

Математическое ожидание или среднее арифметическое

1 K

X = --- xI

N I=1

Дисперсии

1 N 2 = --------- (x - x)2

N - 1 I=1

Среднее-квадратическое отклонение

= 2

Коэффициент вариации

V = ---- 100%

Асимметрии

M3 1 N -

A = ------, где m = --- (xI - x)3

3 n I=1

Моменты 3-порядка;

Эксцесс

M4 1 N

E = ---- - 3, где m4 = --- (xI - x)4

4 n I=1

Моменты 4- порядка.

Две последние характеристики используются для оценки принадлежности статистического ряда к нормальному закону распределения.

Отклонения эмпирических величин от их теоретического значения в случае соответствия нормальному распределению не должны превосходить

3 Д(А) и 5 Д(Е) т. е.

¦ А ¦ 3 Д(А) , ¦ Е ¦ 5 Д(Е)

Где

6(n - 1) 24 n(n - 2)(n - 3)

Д(А) = ----------------- , Д(Е) = ------------------------

(n + 1)(n + 3) (n + 1) (n + 3)(n + 5)

Стандартные отклонения асимметрии и эксцесса: n - объем информации показателей свойств горных пород.

Наиболее гибким и одновременно эффективным критерием для проверки гипотезы о нормальном законе распределения является критерий 2 предложенный Пирсоном. Гипотеза о нормальном характере распределения позволяет вычислить теоретические значения для вероятностей PI попасть в i - й интервал. Для этого используется формула

B - x a - x

P{ a < x < b } = Ф(--------) - Ф(-------),

Где a и b границы выделенного интервала Ф(z) функция Лапласа. После того как найдено PI можно подсчитать наивероятнейшее число попадания в i-й интервал, который равен nPI. Для сравнения эмпирического распределения с предлагаемым нормальным можно теперь сравнить числа nI и nPI. Оказывается, при условии, что все

NPI > 5, величина

K (nI - nPI )2

2 = -----------,

I=1 nPI

Где n= nI, имеет приближенно 2 распределение с f = k-3 степенями свободы, так как здесь отмечаются тpи связи. Две из них x и, третья связь заключена равенстве PI =1. Поэтому, выбрав уровень значимости и степень свободы f, а также не видя табличное значение 2,f(табл), следует проверить гипотезу нормальности и принять решение: при условии 2 2,f(табл) отвергнуть и при противном условии считать ее правильной.

В геологии могут быть статистические кривые распределения близкие к логнормальной кривой. Проверка гипотезы о логнормальном распределении не вызывает каких - либо затруднений и сводится к проверке гипотезы о нормальном распределении логарифмов изучаемой случайной величины. Кроме нормального распределения существует дискретное биномиальное распределение, закон распределения Пуассона, квантали распределения Стьюдента, критерий Колмогорова-Смирнова, распределения Фишера и др., которые применяются в решении геологических задач.

Аналитическое выражение кривой распределения, наилучшим образом описывающее эмпирическую совокупность случайных величин, может быть получено весьма многими способами, число которых, однако, значительно сократится при выполнении следующих общих условий.

1. Как правило, кривая распределения должна быть основана на определенной стохастической схеме, под действием которой формируется то или иное случайное явление. Так, например, нормальный закон распределения возникает в тех случаях, когда исследуемая случайная величина может быть представлена в виде суммы (или линейной функции) большого числа независимых между собой элементарных слагаемых (факторов), каждое из которых в отдельности сравнительно мало влияет на сумму. Если последнее условие не выполняется и влияние, например, одного из слагаемых, формирующих случайную величину, окажется резко преобладающим, то особенности распределения этого слагаемого окажут влияние на закон распределения исследуемой случайной величины. Приняв за основу теоретической схемы зависимость возникновения случайной величины не от суммы, а от произведения достаточно большого числа элементарных воздействий или, иначе говоря, от суммы их логарифмов, получим логарифмически - нормальный закон. 2. В уравнении кривой распределения должно быть возможно меньше параметров, численно определяемых по экспериментальным данным. Это условие особенно важно при статистическом анализе изучения изменения и прогноза основных компонентов геологической среды.

Первичная статистическая обработка информации и изучения законов распределения случайных функций геологических параметров пород - Геоинформатика

Похожие статьи