Численный сравнительный анализ - Ранговый метод оценивания параметров регрессионной модели

Итак, в рамках данной работы рассматриваются такие распределения случайных величин, как распределения Гаусса и Лапласа, треугольное распределение (распределение Симпсона) и "двугорбые" распределения, моделируемые на основе гауссовских и треугольных распределений. Помимо этого рассматриваются распределение Коши, распределение Стьюдента с небольшим числом степеней свободы, распределение Тьюки и логистическое распределение. Последние распределения относятся к распределениям с "тяжелыми хвостами".

Распределение Гаусса с дисперсией у2 > 0 и математическим ожиданием m имеет функцию плотности

.

В проводимых экспериментах гауссовская случайная величина с математическим ожиданием m=0 и дисперсией у2=1 моделируется при помощи встроенной в Matlab процедуры. На рисунке 2.1 изображена функция плотности этой величины.

график плотности распределения гаусса

Рис. 2.1. График плотности распределения Гаусса

Распределение Лапласа со сдвигом в и коэффициентом масштаба б > 0 имеет плотность. В экспериментах рассматривается величина с в=0 и б=1. Величина с таким распределением моделируется как разность двух величин с экспоненциальным распределением. Каждая из этих величин, в свою очередь, вычисляется как логарифм равномерно распределенной на отрезке от 0 до 1 случайной величины, поделенный на - б:

.

График функции плотности распределения Лапласа представлен на рисунке 2.2.

график плотности распределения лапласа

Рис. 2.2. График плотности распределения Лапласа

Распределение Коши с коэффициентом масштаба г > 0 и сдвигом x0 имеет плотность

.

Распределение Стьюдента с n степенями свободы имеет плотность

,

Где Г - гамма-функция Эйлера,

.

Случайные величины с распределениями Коши и Стьюдента получаются при помощи функций, обратных их функциям распределения, в которые в качестве аргумента была подставлена величина с равномерным на отрезке от 0 до 1 распределением. Рассматривалось распределение Стьюдента с 2, 3, 5 и 13 степенями свободы, распределение Коши имеет параметры г = 1 и x0 = 0. На рисунке 2.3 синими точками отмечена плотность распределения Коши, синей линией - плотность распределения Стьюдента с 2 степенями свободы, красной - с 3 степеням, зеленой - с 5 степенями и черной - с 13 степенями.

графики плотностей распределений стьюдента с 2, 3, 5 и 13 степенями свободы и коши

Рис. 2.3. Графики плотностей распределений Стьюдента с 2, 3, 5 и 13 степенями свободы и Коши

Плотность распределения Тьюки равна

,

Где 0 < г < 1 - доля зашумления выборки, у12 > у22. Величина с распределением Тьюки в экспериментах моделируется как смесь двух гауссовских случайных величин: с вероятностью (1-г) величина имеет нормальное распределение с дисперсией у22 и нулевым математическим ожиданием, а с вероятностью г она имеет дисперсию у12. Для реализации такой комбинации дополнительно используется равномерно распределенная на отрезке от 0 до 1 случайная величина. Если значение этой величины оказывается меньше (1-г), то генерируется величина с меньшей дисперсией, иначе же генерируется величина с большей дисперсией. На рисунке 2.4 изображена плотность распределения Тьюки.

график плотности распределения тьюки

Рис. 2.4. График плотности распределения Тьюки

Плотность "двугорбого" распределения на основе двух гауссовских величин описывается формулой

,

Где m - одна из двух симметричных мод распределения. В экспериментах случайная величина с таким распределением моделируется следующим образом: с вероятностью 0,5 величина имеет гауссовское распределение с математическим ожиданием m = 2 и дисперсией у2 = 1, и с вероятностью 0,5 величина имеет математическое ожидание - m = -2 и дисперсию у2 = 1. Для реализации комбинации, аналогично распределению Тьюки, используется вспомогательная случайная величина с равномерным распределением. На рисунке 2.5 изображен график плотности такого распределения.

график плотности

Рис. 2.5. График плотности "двугорбого" распределения на основе комбинации двух гауссовских

Плотность треугольного распределения на отрезке от а до b равна

.

В экспериментах случайная величина с треугольным распределением на отрезке от -1 до 1 вычисляется как сумма двух случайных величин, каждая из них распределена равномерно на отрезке от -0,5 до 0,5. На рисунке 2.6 изображена плотность треугольного распределения.

график плотности треугольного распределения

Рис. 2.6. График плотности треугольного распределения

"Двугорбое" распределение на основе двух треугольных (на отрезках.[-b,-a] и [a, b]) имеет плотность

.

В экспериментах один треугольник располагается на отрезке [-1,0], а второй - на отрезке [0,1]. Такое распределение моделируется следующим образом: с вероятностью 0,5 генерируется сумма двух величин с равномерным распределением на отрезке от 0 до 0,5, иначе генерируется сумма двух величин с равномерным на отрезке от -0,5 до 0 распределением. График плотности такого распределения представлен на рисунке 2.7.

график плотности

Рис. 2.7. График плотности "двугорбого" распределения на основе комбинации двух треугольных

Логистическое распределение с параметрами сдвига м и масштаба s > 0 имеет функцию распределения вида

.

В экспериментах такая величина с параметрами м = 0 и s = 1 моделируется при помощи функции, обратной функции распределения, в которую в качестве аргумента подставляется случайная величина с равномерным на отрезке от 0 до 1 распределением. На рисунке 2.8 изображен график плотности этого распределения.

график плотности логистического распределения

Рис. 2.8. График плотности логистического распределения

Для проведения сравнительного анализа требуется построить регрессионные зависимости. В экспериментах рассматриваются модели с n = 50 наблюдениями и (m+1) = 3 параметрами, включая свободный член. Данные генерируются следующим образом:

    - Сначала случайным образом генерируется матрица X с данными, равномерно распределенными на некотором отрезке. Матрица имеет n строк и m столбцов. - К матрице X приписывается столбец из единиц для того, чтобы строить модели со свободным членом. - Согласно рассматриваемому распределению генерируется n-мерный вектор-столбец погрешностей е. - Задается m-мерный вектор-столбец и с реальными значениями параметров линейной регрессионной модели. - Строится вектор наблюдений Y = Xи + е

Для каждой построенной регрессионной зависимости в экспериментах вычисляются ранговая, МНК - и МНМ-оценки вектора ее параметров.

Согласно Дж. Себеру Дж. Себер "Линейный регрессионный анализ", М.: Мир, 1980, с.50, МНК-оценка вектора параметров линейной регрессионной модели имеет вид

.

Для построения приближенной МНМ-оценки используется метод симплексного поиска с целью минимизации функции потерь

.

Для построения приближенной ранговой оценки тем же методом проводится минимизация рассмотренной в предыдущей главе функции потерь

.

Поскольку данные генерируются случайно, то следует избегать влияния какого-то конкретного разброса данных на общую картину. Поэтому для одного и того же значения заданных параметров данные генерируются 1000 раз в проводимых экспериментах, каждый раз на основе этих данных строятся оценки параметров, вычисляются значения критерия качества оценок, и затем считается выборочное среднее качества оценок параметров регрессионных моделей для каждого метода. Критерием качества оценки в этом случае будет выступать сумма квадратов разностей истинного значения параметра и его оценки

,

Где - вектор с истинными значениями параметров, - вектор с оценками параметров. Наилучшим будет тот метод, для которого выборочное среднее ошибки оценивания будет меньше.

Результаты проведенных экспериментов для удобства сведены в таблицу 2.1. Из этих данных следуют следующие выводы:

    - МНК наиболее точен для оценивания параметров регрессионной модели с шумами, имеющими распределение Гаусса, Стьюдента с 13 и более степенями свободы, "двугорбое" распределение на основе гауссовских величин, треугольное распределение, а так же "двугорбое" распределение на основе треугольного. Этот метод дает наихудшую оценку при распределении Лапласа, Коши, Тьюки и Стьюдента с менее чем 5 степенями свободы. - МНМ дает наиболее точную оценку при шумах в модели, имеющих распределение Коши и оценку, сопоставимую по точности с ранговой, при распределении Лапласа. Этот метод в меньшей степени точен, чем рассматриваемые альтернативы, при распределении Гаусса, распределении Стьюдента с 5 и более степенями свободы, "двугорбом" распределении на основе гауссовских величин, треугольном распределении, а так же "двугорбом" распределении на основе треугольного. - Ранговый метод наиболее точен для оценивания параметров регрессионной модели с шумами, имеющими распределение Стьюдента со степенями свободы меньше 13 (но не с 1 степенью, т. к. это распределение Коши), логистическое распределение, а так же при распределении Тьюки. Ни в одном эксперименте он не показал себя с худшей стороны.

Таблица 2.1

для

Рангового метода

МНК

МНМ

Стандартное нормальное распределение

0,1959

0,1768

0,2677

Распределение Лапласа

0,2416

0,3332

0,2464

Распределение Коши

0,6909

16958,2274

0,5641

Распределение Стьюдента с 2 степенями свободы

0,3399

1,6814

0,3652

Распределение Стьюдента с 3 степенями свободы

0,2766

0,4770

0,3337

Распределение Стьюдента с 5 степенями свободы

0,2488

0,3054

0,3102

Распределение Стьюдента с 13 степенями свободы

0,2006

0,1947

0,2740

Двугорбое распределение на основе комбинации гауссовских

1,3196

0,8360

3,0581

Распределение Тьюки (г=0,1, у12=100, у22=1)

0,2991

1,8910

0,3551

Треугольное распределение

0,0328

0,0271

0,0477

Двугорбое распределение на основе комбинации треугольных

0,0796

0,0482

0,2046

Логистическое распределение

0,5243

0,553

0,6847

Так же был проведен ряд дополнительных экспериментов с распределением Тьюки с различными значениями параметров: уровнем зашумления г и значениями дисперсий у12 и у22. Результаты представлены в таблице 2.2. Из этих результатов следует, что ранговый метод дает наиболее точную оценку при умеренном значении дисперсий комбинируемых величин и небольшом значении уровня зашумления. При увеличении каждого из этих параметров в определенный момент МНМ-оценка становится более точной, МНК-оценка достаточно быстро теряет свою точность.

Таблица 2.2

Доля зашумления г

Дисперсии у12 и у22

Ошибка ранговой оценки

Ошибка МНК-оценки

Ошибка МНМ-оценки

0,05

У12 = 10, у22 = 1

0,2085

0,2411

0,285

0,05

У12 = 200, у22 = 1

0,2154

1,9202

0,2911

0,05

У12 = 100, у22 = 5

1,133

1,7767

1,4342

0,1

У12 = 10, у22 = 1

0,2544

0,3317

0,3408

0,1

У12 = 200, у22 = 1

0,2815

3,7429

0,3218

0,1

У12 = 100, у22 = 5

1,2936

2,5161

1,5501

0,2

У12 = 10, у22 = 1

0,3149

0,4624

0,3745

0,2

У12 = 200, у22 = 1

0,4239

6,9605

0,4164

0,2

У12 = 100, у22 = 5

1,6651

3,9654

1,7696

В приложении № 2 представлены коды для Matlab, с помощью которых генерировались случайные величины в экспериментах. В приложении № 3 представлен пример кода, вычисляющий результаты эксперимента для гауссовского распределения шумов в модели.

Итак, в этой главе были рассмотрены используемые в экспериментах распределения случайных величин, методы их моделирования и приведен алгоритм проведения экспериментов. Так же были представлены результаты экспериментов и сделаны выводы, касающиеся точности методов оценивания параметров моделей при различных распределениях шумов.

Похожие статьи




Численный сравнительный анализ - Ранговый метод оценивания параметров регрессионной модели

Предыдущая | Следующая