Ранговый метод - Ранговый метод оценивания параметров регрессионной модели

Метод наименьших квадратов широко применяется для оценки параметров линейной регрессии, поскольку достаточно прост в вычислении и при предположении о нормальном распределении шумов в модели дает оценку параметров, совпадающую с оценкой максимального правдоподобия. К недостаткам этого метода можно отнести высокую чувствительность к выбросам в данных: даже одно наблюдение с нетипичными значениями может сильно повлиять на оценки параметров и изменить общую картину. В сравнении с методом наименьших квадратов, метод наименьших модулей в меньшей степени подвержен влиянию выбросов в данных, в случае распределения ошибок согласно закону Лапласа (двойному экспоненциальному) он дает оценку, обеспечивающую максимум функции правдоподобия.

Ранговый метод оценки параметров линейной регрессии является альтернативой двум вышеупомянутым методам. Предполагается, что он является более устойчивым к выбросам в данных и обеспечивает более точную оценку параметров регрессионной модели в случае, когда распределение шумов в модели имеет "тяжелые хвосты" (например, распределение Коши), чем МНК, и лучше, чем МНМ, оценивает значения параметров в моделях с шумами, имеющими "двугорбое" распределение. В этой части будет рассмотрен метод построения ранговой оценки параметров линейной регрессионной модели.

Итак, рассмотрим линейную модель:

,

Где y - наблюдаемое значение зависимой переменной,

X1,..., xM - значения независимых объясняющих переменных (или регрессоров),

и0,..., иM - неизвестные параметры модели,

А е - случайная ошибка наблюдения, имеющая нулевое математическое ожидание.

При наличии n наблюдений значения зависимой переменной и набора ее регрессоров, модель запишется в матричном виде:

,

Где - вектор наблюдаемых значений зависимой переменной,

- матрица плана полного столбцового ранга, число столбцов которой не превышает числа строк, ее элемент - значение j-го регрессора в i-м наблюдении, - вектор параметров, а - вектор независимых, одинаково распределенных ошибок с нулевым математическим ожиданием и ковариационной матрицей вида, где I - единичная матрица размера nxn.

Для построения оценки ранговым методом требуется ввести функцию D(Y-Xи) - меру изменчивости. Мерой изменчивости (или функцией потерь) называется такая функция D(.), что

и

Для любого n-мерного вектора Z и скаляра a. Если рассматривать эту функцию как функцию от m переменных - параметров и1, ... , иM, то точка, в которой функция D достигает минимума, будет являться оценкой параметров регрессионной модели. Функция изменчивости не зависит от сдвига, поэтому оценка свободного члена и0 для модели проводится отдельно от оценки остальных параметров.

В статье Л. Джекла Louis A. Jaeckel, Estimating Regression Coefficients by Minimizing the Dispersion of the Residuals// The Annals of Mathematical Statistics, Volume 43, № 5 (1972), 1972, c. 1450 ранговой оценкой вектора параметров (без свободного члена и0) называется такой вектор, который минимизирует функцию

,

Где yI - i-й элемент вектора Y, xI - i-я строка матрицы X (без столбца единиц), R(yI - xIИ) - ранг величины yI - xIИ среди всех величин yK - xKИ при k от 1 до n, а в качестве функции ц берется Т. Хеттманспергер "Статистические выводы, основанные на рангах"/ М.: Финансы и статистика,1987, с. 242

.

В книге Т. Хеттманспергера Т. Хеттманспергер "Статистические выводы, основанные на рангах"/ М.: Финансы и статистика,1987, с. 242 для построения оценок параметров и1, ... , иM регрессионной модели предлагается найти частные производные функции D(Y-Xи) по переменным иI:

,

И решить систему уравнений:

.

Недостатком такого способа оценивания является сложность решения подобной системы уравнений при числе параметров m большем единицы. Поэтому, в данной работе предлагается построение приближения ранговой оценки вектора параметров при помощи численной минимизации функции D.

В статье Л. Джекла Louis A. Jaeckel, Estimating Regression Coefficients by Minimizing the Dispersion of the Residuals// The Annals of Mathematical Statistics, Volume 43, № 5 (1972), 1972, c. 1450 приведена следующая теорема: при фиксированном Y функция D(Y-Xи) - неотрицательная, непрерывная и выпуклая функция и.

В силу этого утверждения, можно искать минимум функции D(Y-Xи) при помощи численных методов по отысканию локального минимума. В данной работе при проведении экспериментов для нахождения минимума функции D используется встроенный в Matlab метод симплексного поиска.

Метод симплексного поиска точки минимума функции k переменных f(z1,..., zK) заключается в выполнении следующих этапов:

    - Сначала выбирается начальное приближение точки минимума z0 = (z10,..., zK0), в дополнение к этой точке генерируются еще k путем прибавления поочередно к каждой компоненте z0 5% ее значения. В точках z0,...,zK вычисляется значение функции f. Эти точки ранжируются по возрастанию значения функции в них, получается набор точек a0,...,aK таких, что f(aI) < f(aj) при i < j. точки a0,...,ak образуют симплекс. - генерируется новая точка r, значение функции в ней сравнивается со значениями функции в вершинах симплекса. если в какой-то вершине значение функции превосходит значение функции в данной точке r, то эта точка становится новой вершиной симплекса, а точка ak с наибольшим значением функции в ней убирается из рассмотрения. имеющиеся вершины снова сортируются по возрастанию значения функции в них. - предыдущий шаг повторяется до тех пор, пока диаметр симплекса не будет меньше заданной величины. по окончании алгоритма в качестве решения задачи минимизации функции выбирается точка a0 из отсортированного набора вершин симплекса.

Данный метод подходит для задачи минимизации функции потерь, поскольку для непрерывных функций позволяет найти локальный минимум с небольшой ошибкой. В силу выпуклости функции любой конечный локальный минимум, даже не единственный, будет являться глобальным минимумом и подходить для оценки параметров.

В книге Т. Хеттманспергера Т. Хеттманспергер "Статистические выводы, основанные на рангах", М.: Финансы и статистика,1987, с. 248 также указано, что диаметр множества точек и, на которых функция достигает минимума, сходится к нулю по вероятности. А это значит, что множество точек, минимизирующих функцию D, будет мало даже при умеренном числе наблюдений.

Согласно Т. Хеттманспергеру Т. Хеттманспергер "Статистические выводы, основанные на рангах", М.: Финансы и статистика,1987, с. 257, свободный член и0 в регрессионной модели можно оценить на основании уже полученных оценок параметров и1, ... , иM. Для этого по выборке остатков модели, ... , находится выборочная медиана. Тогда оценка свободного члена равна элементу в середине упорядоченной выборки (если число элементов n нечетное), либо среднему арифметическому двух элементов, находящихся в середине упорядоченной выборки (при четном числе n).

Итак, в этой главе был описан ранговый метод оценивания параметров регрессионной модели и рассмотрены особенности его реализации в данной работе. В приложении № 1 представлен алгоритм для среды Matlab, который строит ранговую оценку параметров регрессионной модели, используя встроенную в Matlab функцию метода симплексного поиска.

Похожие статьи




Ранговый метод - Ранговый метод оценивания параметров регрессионной модели

Предыдущая | Следующая