Численный сравнительный анализ - Ранговый метод оценивания параметров регрессионной модели
Итак, в рамках данной работы рассматриваются такие распределения случайных величин, как распределения Гаусса и Лапласа, треугольное распределение (распределение Симпсона) и "двугорбые" распределения, моделируемые на основе гауссовских и треугольных распределений. Помимо этого рассматриваются распределение Коши, распределение Стьюдента с небольшим числом степеней свободы, распределение Тьюки и логистическое распределение. Последние распределения относятся к распределениям с "тяжелыми хвостами".
Распределение Гаусса с дисперсией у2 > 0 и математическим ожиданием m имеет функцию плотности
![](/images/image021-1449.png)
.
В проводимых экспериментах гауссовская случайная величина с математическим ожиданием m=0 и дисперсией у2=1 моделируется при помощи встроенной в Matlab процедуры. На рисунке 2.1 изображена функция плотности этой величины.
![график плотности распределения гаусса](/images/image022-180.jpg)
Рис. 2.1. График плотности распределения Гаусса
![](/images/image023-1340.png)
Распределение Лапласа со сдвигом в и коэффициентом масштаба б > 0 имеет плотность. В экспериментах рассматривается величина с в=0 и б=1. Величина с таким распределением моделируется как разность двух величин с экспоненциальным распределением. Каждая из этих величин, в свою очередь, вычисляется как логарифм равномерно распределенной на отрезке от 0 до 1 случайной величины, поделенный на - б:
![](/images/image024-1317.png)
.
График функции плотности распределения Лапласа представлен на рисунке 2.2.
![график плотности распределения лапласа](/images/image025-154.jpg)
Рис. 2.2. График плотности распределения Лапласа
Распределение Коши с коэффициентом масштаба г > 0 и сдвигом x0 имеет плотность
![](/images/image026-1263.png)
.
Распределение Стьюдента с n степенями свободы имеет плотность
![](/images/image027-1206.png)
,
Где Г - гамма-функция Эйлера,
![](/images/image028-1184.png)
.
Случайные величины с распределениями Коши и Стьюдента получаются при помощи функций, обратных их функциям распределения, в которые в качестве аргумента была подставлена величина с равномерным на отрезке от 0 до 1 распределением. Рассматривалось распределение Стьюдента с 2, 3, 5 и 13 степенями свободы, распределение Коши имеет параметры г = 1 и x0 = 0. На рисунке 2.3 синими точками отмечена плотность распределения Коши, синей линией - плотность распределения Стьюдента с 2 степенями свободы, красной - с 3 степеням, зеленой - с 5 степенями и черной - с 13 степенями.
![графики плотностей распределений стьюдента с 2, 3, 5 и 13 степенями свободы и коши](/images/image029-146.jpg)
Рис. 2.3. Графики плотностей распределений Стьюдента с 2, 3, 5 и 13 степенями свободы и Коши
Плотность распределения Тьюки равна
![](/images/image030-1122.png)
,
Где 0 < г < 1 - доля зашумления выборки, у12 > у22. Величина с распределением Тьюки в экспериментах моделируется как смесь двух гауссовских случайных величин: с вероятностью (1-г) величина имеет нормальное распределение с дисперсией у22 и нулевым математическим ожиданием, а с вероятностью г она имеет дисперсию у12. Для реализации такой комбинации дополнительно используется равномерно распределенная на отрезке от 0 до 1 случайная величина. Если значение этой величины оказывается меньше (1-г), то генерируется величина с меньшей дисперсией, иначе же генерируется величина с большей дисперсией. На рисунке 2.4 изображена плотность распределения Тьюки.
![график плотности распределения тьюки](/images/image031-110.jpg)
Рис. 2.4. График плотности распределения Тьюки
Плотность "двугорбого" распределения на основе двух гауссовских величин описывается формулой
![](/images/image032-1057.png)
,
Где m - одна из двух симметричных мод распределения. В экспериментах случайная величина с таким распределением моделируется следующим образом: с вероятностью 0,5 величина имеет гауссовское распределение с математическим ожиданием m = 2 и дисперсией у2 = 1, и с вероятностью 0,5 величина имеет математическое ожидание - m = -2 и дисперсию у2 = 1. Для реализации комбинации, аналогично распределению Тьюки, используется вспомогательная случайная величина с равномерным распределением. На рисунке 2.5 изображен график плотности такого распределения.
![график плотности](/images/image033-117.jpg)
Рис. 2.5. График плотности "двугорбого" распределения на основе комбинации двух гауссовских
Плотность треугольного распределения на отрезке от а до b равна
![](/images/image034-1025.png)
.
В экспериментах случайная величина с треугольным распределением на отрезке от -1 до 1 вычисляется как сумма двух случайных величин, каждая из них распределена равномерно на отрезке от -0,5 до 0,5. На рисунке 2.6 изображена плотность треугольного распределения.
![график плотности треугольного распределения](/images/image035-96.jpg)
Рис. 2.6. График плотности треугольного распределения
"Двугорбое" распределение на основе двух треугольных (на отрезках.[-b,-a] и [a, b]) имеет плотность
![](/images/image036-970.png)
.
В экспериментах один треугольник располагается на отрезке [-1,0], а второй - на отрезке [0,1]. Такое распределение моделируется следующим образом: с вероятностью 0,5 генерируется сумма двух величин с равномерным распределением на отрезке от 0 до 0,5, иначе генерируется сумма двух величин с равномерным на отрезке от -0,5 до 0 распределением. График плотности такого распределения представлен на рисунке 2.7.
![график плотности](/images/image037-89.jpg)
Рис. 2.7. График плотности "двугорбого" распределения на основе комбинации двух треугольных
Логистическое распределение с параметрами сдвига м и масштаба s > 0 имеет функцию распределения вида
![](/images/image038-935.png)
.
В экспериментах такая величина с параметрами м = 0 и s = 1 моделируется при помощи функции, обратной функции распределения, в которую в качестве аргумента подставляется случайная величина с равномерным на отрезке от 0 до 1 распределением. На рисунке 2.8 изображен график плотности этого распределения.
![график плотности логистического распределения](/images/image039-80.jpg)
Рис. 2.8. График плотности логистического распределения
Для проведения сравнительного анализа требуется построить регрессионные зависимости. В экспериментах рассматриваются модели с n = 50 наблюдениями и (m+1) = 3 параметрами, включая свободный член. Данные генерируются следующим образом:
- - Сначала случайным образом генерируется матрица X с данными, равномерно распределенными на некотором отрезке. Матрица имеет n строк и m столбцов. - К матрице X приписывается столбец из единиц для того, чтобы строить модели со свободным членом. - Согласно рассматриваемому распределению генерируется n-мерный вектор-столбец погрешностей е. - Задается m-мерный вектор-столбец и с реальными значениями параметров линейной регрессионной модели. - Строится вектор наблюдений Y = Xи + е
Для каждой построенной регрессионной зависимости в экспериментах вычисляются ранговая, МНК - и МНМ-оценки вектора ее параметров.
Согласно Дж. Себеру Дж. Себер "Линейный регрессионный анализ", М.: Мир, 1980, с.50, МНК-оценка вектора параметров линейной регрессионной модели имеет вид
![](/images/image040-912.png)
.
Для построения приближенной МНМ-оценки используется метод симплексного поиска с целью минимизации функции потерь
![](/images/image041-872.png)
.
Для построения приближенной ранговой оценки тем же методом проводится минимизация рассмотренной в предыдущей главе функции потерь
![](/images/image042-851.png)
![](/images/image043-855.png)
.
Поскольку данные генерируются случайно, то следует избегать влияния какого-то конкретного разброса данных на общую картину. Поэтому для одного и того же значения заданных параметров данные генерируются 1000 раз в проводимых экспериментах, каждый раз на основе этих данных строятся оценки параметров, вычисляются значения критерия качества оценок, и затем считается выборочное среднее качества оценок параметров регрессионных моделей для каждого метода. Критерием качества оценки в этом случае будет выступать сумма квадратов разностей истинного значения параметра и его оценки
![](/images/image044-824.png)
,
![](/images/image045-796.png)
Где - вектор с истинными значениями параметров, - вектор с оценками параметров. Наилучшим будет тот метод, для которого выборочное среднее ошибки оценивания будет меньше.
Результаты проведенных экспериментов для удобства сведены в таблицу 2.1. Из этих данных следуют следующие выводы:
- - МНК наиболее точен для оценивания параметров регрессионной модели с шумами, имеющими распределение Гаусса, Стьюдента с 13 и более степенями свободы, "двугорбое" распределение на основе гауссовских величин, треугольное распределение, а так же "двугорбое" распределение на основе треугольного. Этот метод дает наихудшую оценку при распределении Лапласа, Коши, Тьюки и Стьюдента с менее чем 5 степенями свободы. - МНМ дает наиболее точную оценку при шумах в модели, имеющих распределение Коши и оценку, сопоставимую по точности с ранговой, при распределении Лапласа. Этот метод в меньшей степени точен, чем рассматриваемые альтернативы, при распределении Гаусса, распределении Стьюдента с 5 и более степенями свободы, "двугорбом" распределении на основе гауссовских величин, треугольном распределении, а так же "двугорбом" распределении на основе треугольного. - Ранговый метод наиболее точен для оценивания параметров регрессионной модели с шумами, имеющими распределение Стьюдента со степенями свободы меньше 13 (но не с 1 степенью, т. к. это распределение Коши), логистическое распределение, а так же при распределении Тьюки. Ни в одном эксперименте он не показал себя с худшей стороны.
Таблица 2.1
![]() для |
Рангового метода |
МНК |
МНМ |
Стандартное нормальное распределение |
0,1959 |
0,1768 |
0,2677 |
Распределение Лапласа |
0,2416 |
0,3332 |
0,2464 |
Распределение Коши |
0,6909 |
16958,2274 |
0,5641 |
Распределение Стьюдента с 2 степенями свободы |
0,3399 |
1,6814 |
0,3652 |
Распределение Стьюдента с 3 степенями свободы |
0,2766 |
0,4770 |
0,3337 |
Распределение Стьюдента с 5 степенями свободы |
0,2488 |
0,3054 |
0,3102 |
Распределение Стьюдента с 13 степенями свободы |
0,2006 |
0,1947 |
0,2740 |
Двугорбое распределение на основе комбинации гауссовских |
1,3196 |
0,8360 |
3,0581 |
Распределение Тьюки (г=0,1, у12=100, у22=1) |
0,2991 |
1,8910 |
0,3551 |
Треугольное распределение |
0,0328 |
0,0271 |
0,0477 |
Двугорбое распределение на основе комбинации треугольных |
0,0796 |
0,0482 |
0,2046 |
Логистическое распределение |
0,5243 |
0,553 |
0,6847 |
Так же был проведен ряд дополнительных экспериментов с распределением Тьюки с различными значениями параметров: уровнем зашумления г и значениями дисперсий у12 и у22. Результаты представлены в таблице 2.2. Из этих результатов следует, что ранговый метод дает наиболее точную оценку при умеренном значении дисперсий комбинируемых величин и небольшом значении уровня зашумления. При увеличении каждого из этих параметров в определенный момент МНМ-оценка становится более точной, МНК-оценка достаточно быстро теряет свою точность.
Таблица 2.2
Доля зашумления г |
Дисперсии у12 и у22 |
Ошибка ранговой оценки |
Ошибка МНК-оценки |
Ошибка МНМ-оценки |
0,05 |
У12 = 10, у22 = 1 |
0,2085 |
0,2411 |
0,285 |
0,05 |
У12 = 200, у22 = 1 |
0,2154 |
1,9202 |
0,2911 |
0,05 |
У12 = 100, у22 = 5 |
1,133 |
1,7767 |
1,4342 |
0,1 |
У12 = 10, у22 = 1 |
0,2544 |
0,3317 |
0,3408 |
0,1 |
У12 = 200, у22 = 1 |
0,2815 |
3,7429 |
0,3218 |
0,1 |
У12 = 100, у22 = 5 |
1,2936 |
2,5161 |
1,5501 |
0,2 |
У12 = 10, у22 = 1 |
0,3149 |
0,4624 |
0,3745 |
0,2 |
У12 = 200, у22 = 1 |
0,4239 |
6,9605 |
0,4164 |
0,2 |
У12 = 100, у22 = 5 |
1,6651 |
3,9654 |
1,7696 |
В приложении № 2 представлены коды для Matlab, с помощью которых генерировались случайные величины в экспериментах. В приложении № 3 представлен пример кода, вычисляющий результаты эксперимента для гауссовского распределения шумов в модели.
Итак, в этой главе были рассмотрены используемые в экспериментах распределения случайных величин, методы их моделирования и приведен алгоритм проведения экспериментов. Так же были представлены результаты экспериментов и сделаны выводы, касающиеся точности методов оценивания параметров моделей при различных распределениях шумов.
Похожие статьи
-
Заключение - Ранговый метод оценивания параметров регрессионной модели
В данной работе был рассмотрен ранговый метод оценивания параметров регрессионной модели, был предложен способ приближенного вычисления ранговой оценки...
-
Вычисление АОЭ рангового метода по отношению к МНК и МНМ позволяет сделать выводы о том, какой метод лучше применять для оценки параметров в моделях с...
-
Ранговый метод - Ранговый метод оценивания параметров регрессионной модели
Метод наименьших квадратов широко применяется для оценки параметров линейной регрессии, поскольку достаточно прост в вычислении и при предположении о...
-
Введение - Ранговый метод оценивания параметров регрессионной модели
Объектом исследования в этой ВКР является ранговый метод оценивания параметров регрессионной модели. Этот метод применяется при построении регрессионных...
-
Построение модели на реальных данных - Ранговый метод оценивания параметров регрессионной модели
Для построения линейной регрессионной модели на основе реальных данных при помощи рангового метода оценивания параметров был выбран достаточно известный...
-
Ранговый метод оценивания параметров регрессионной модели
Пример кода, вычисляющий результаты эксперимента по сравнинию ранговой оценки, МНК - и МНМ-оценок параметров для модели с гауссовским распределением...
-
После проведения регрессионного анализа получается модель объекта исследований в виде некоторой функции. В простейшем случае линейной регрессии она имеет...
-
Для того чтобы можно было составить план проведения численных экспериментов, необходимо определиться с выходными параметрами объекта, которые можно...
-
Составляется матрица численных значений базисных функций, соответствующая расширенной матрице спектра плана Вычисляется информационная матрица...
-
Монте карло погрешность распределение интеграл В качестве оценки интеграла принимают , Где n - число испытаний; F(x) - плотность распределения...
-
Пусть Dl, r() соответственно левые (правые) границы интервалов I, отвечающих на криволинейной трапеции ОИО значениям 0< < 1. Тогда интересующая нас...
-
Методы оценки параметров структурной формы модели - Основы эконометрики
Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение в...
-
Элементы корреляционного анализа Зависимость между случайными величинами (СВ) X и Y в теории вероятностей и математической статистике описывается, в...
-
Общая схема метода Монте-Карло Сущность метода Монте-Карло состоит в следующем: требуется найти значение а некоторой изучаемой величины. Для этого...
-
Методы непараметрической статистики - Основы теории систем и системного анализа
Использование классических распределений случайных величин обычно называют "параметрической статистикой" - мы делаем предположение о том, что...
-
Метод максимального правдоподобия - Основы научных исследований
Разработан Р. Фишером. Пусть Х 1 ,х 2 ...х N - выборка из генеральной совокупности случайной величины Х с функцией плотности вероятности Р(х, и),...
-
МЕТОДЫ СРАВНИТЕЛЬНОГО ШКАЛИРОВАНИЯ - Многомерный статистический анализ
Шкалирование методом попарного сравнения - Это метод сравнительного шкалирования, при котором респонденту дается два объекта для выбора по определенному...
-
Это метод который нашел мировое применение для анализа лекарствнных средств. Он основан на свойстве галогенидов количественно осаждаться нитратом серебра...
-
Метод дихотомии требует менее всего итераций цикла для получения корней уравнения с заданной точностью. Если расчет ведется без помощи ЭВМ, то это...
-
Количественный анализ - это совокупность, химических, физико-химических и физических методов определения количественного соотношения компонентов,...
-
Важной задачей статистики является разработка методики статистической оценки социально-экономических явлений, которая осложняется тем, что многие...
-
Гомоскедастичностью называется выполняемость предпосылки о постоянстве дисперсии отклонений. Гетероскедастичностью называется невыполняемость этой самой...
-
Математическое ожидание, дисперсия Дискретной называют случайную величину, которая принимает отдельные, изолированные возможные значения с определенными...
-
Методы измерения параметров тренда - Ряды динамики в статистике
Тенденция ряда динамики (тренд). Важнейшим направлением в исследовании закономерностей динамики социально-экономических процессов является изучение общей...
-
Задание 4 Найти оценки коэффициентов регрессионной зависимости У=а 0 +а 1 *х 1 +а 2 *х 2 +а 12 *х 1 *х 2 ,и проверить регрессионную зависимость на...
-
Регрессия -- зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Задача регрессионного анализа...
-
Оценка адекватности моделей методом факторно-плоскостного пространственного проецирования
Оценка адекватности моделей методом факторно-плоскостного пространственного проецирования Современная автомобильная промышленность ставит перед...
-
Пусть подынтегральная функция неотрицательна и ограничена: , а двумерная случайная величина распределена равномерно в прямоугольнике D с основанием и...
-
Модель Лефевра-Николиса описывает колебательные процессы в следующей цепочке химических реакций: Предполагается, что концентрации веществ A, B, D, E...
-
Способ усреднения подынтегральной функции - Применение метода Монте-Карло в эконометрическом анализе
В качестве оценки определенного интеграла принимают , Где n - число испытаний; - возможные значения случайной величины X, распределенной равномерно в...
-
Алгоритмы метода Монте-Карло для решения интегральных уравнений второго рода Пусть необходимо вычислить линейный функционал , Где, причем для...
-
В большинстве реальных больших систем не обойтись без учета "состояний природы" -- воздействий Стохастического типа, случайных величин или случайных...
-
Применение статистических методов анализа для адекватной интерпретации результатов контроля остаточных знаний соискателей высшего образования на примере...
-
Параметры эмпирических распределений - Основы научных исследований
По опытным (эмпирическим) данным строятся распределения исследуемых случайных величин. Функции плотности Р(х) таких распределений могут иметь один...
-
В настоящее время нельзя назвать область человеческой деятельности, в которой в той или иной степени не использовались бы методы моделирования. Особенно...
-
Пусть у нас имеется некоторая непрерывная случайная величина X, распределенная нормально с математическим ожиданием и среднеквадратичным отклонением....
-
Знаменитая теория полимолекулярной адсорбции Брунауэра, Эммета и Теллера, получившая название теории БЭТ (по первым буквам фамилий ученых), основана на...
-
Введение - Синтез скоринговой модели методом системно-когнитивного анализа
Кредитно-финансовая система является одной из важнейших структур рыночной экономики, так как от темпов ее развития напрямую зависят темпы развития...
-
Уровень науки и техники Надежность средств, с помощью которых человек достигает космоса высокая, но не идеальна. РН -- сложная конструкция, и даже в...
-
Адсорбция активированный уголь Развитие теории адсорбционных сил еще не достигло такой стадии, когда по известным физико-химическим свойствам газа и...
Численный сравнительный анализ - Ранговый метод оценивания параметров регрессионной модели