Введение, Оптимальный метод диагностики основан на непараметрических оценках плотности - Базовые результаты математической теории классификации

Методы классификации - неотъемлемая часть математических методов исследования, интересная теоретически и важная практически. Обзоры этой научной области даны в [1 - 3]. Многие математические методы классификации относятся к непараметрической статистике [4] и к нечисловой статистике [5], т. е. являются неотъемлемой составной частью основного потока современных научных исследований, порожденных новой парадигмой прикладной статистики [6].

В многообразии результатов математической теории классификации выделим три - оптимальный метод диагностики (дискриминантного анализа), адекватный показатель качества алгоритма дискриминантного анализа, доказательство сходимости итерационных алгоритмов кластер-анализа. По нашей оценке, эти результаты являются основными в теории классификации, с ними должен быть знаком каждый специалист, развивающий эту теорию или применяющий ее результаты.

Оптимальный метод диагностики основан на непараметрических оценках плотности

Рассмотрим задачу диагностики с двумя классами. Решение принимают по основе значения x - элемента некоторого пространства. Элементы первого класса имеют плотность f(x), элементы второго - плотность g(x). Поступает на рассмотрение новый объект со значением Х. К какому классу его отнести?

Задачу диагностики можно переформулировать в терминах теории проверки статистических гипотез. Пусть согласно нулевой гипотезе H0 результат наблюдения Х имеет распределение с плотностью f(x), а согласно альтернативной гипотезе H1 результат наблюдения Х имеет распределение с плотностью g(x). Отнесение Х к первому классу соответствует принятию гипотезы H0 (и отклонению гипотезы H1), а отнесение Х ко второму классу соответствует принятию гипотезы H1 (и отклонению гипотезы H0).

В теории проверки статистических гипотез выявлена важная роль критерия отношения правдоподобия (см., например, [7]). Статистика этого критерия имеет вид

. (1)

Правило принятия решения основано на сравнении с порогом С значения статистики критерия Q(X), рассчитанного для поступившего на рассмотрение нового объекта со значением Х. Таким образом, если Q(X) > C, то Х относят к первому классу, в противном случае - ко второму.

С точки зрения здравого смысла критерий отношения правдоподобия является естественным, как отношение шансов (вероятностей) за то, что новый объект со значением Х относится к первому или ко второму классу соответственно. Важно, что согласно лемме Неймана-Пирсона этот критерий является наиболее мощным критерием среди всех статистических критериев, имеющих один и тот же заданный уровень значимости (понятия "уровень значимости" и "мощность критерия" - базовые в математической статистике). (Строго говоря, под термином "лемма" понимают верное (т. е. доказанное) утверждение, полезное не само по себе, а для доказательства других утверждений. Однако лемма Неймана-Пирсона - основной результат математической статистики, важный сам по себе. Поэтому лемму Неймана-Пирсона часто называют фундаментальной леммой математической статистики.)

Итак, оптимальный метод диагностики существует и задается с помощью статистики Q(X) (см. формулу (1)).

Однако при решении практических задач диагностики плотности f(x) и g(x) обычно неизвестны. В таких случаях строят правило диагностики на основе обучающих выборок. А именно, предполагается, что имеются m объектов из первого класса (обучающая выборка для первого класса) и n объектов из второго класса (обучающая выборка для второго класса). В вероятностно-статистической теории принимают, что обучающую выборку можно моделировать как совокупность независимых одинаково распределенных случайных объектов с соответствующей плотностью. Развиты непараметрические методы состоятельного оценивания неизвестной плотности [8, 9]. Пусть fm(x) и gn(x) - состоятельные оценки плотностей f(x) и g(x) соответственно по обучающим выборкам. Рассмотрим выборочный аналог статистики критерия отношения правдоподобия

. (2)

Из состоятельности fm(x) и gn(x) вытекает, что Qmn(x) для того же элемента x является состоятельной оценкой Q(х) при безграничном росте объемов обучающих выборок. При справедливости обычно выполненного предположения равномерной сходимости из оптимальности критерия отношения правдоподобия для полностью известных плотностей вытекает асимптотическая оптимальность выборочного аналога этого критерия, основанного на сравнении с порогом С значения статистики (2).

В задачах диагностики со многими классами оптимальное решение также выражается через плотности, соответствующие классам. Например, при постановке задачи в терминах статистических решающих правил [10, 11]. Во всех таких случаях асимптотически оптимальное решение получаем путем замены неизвестных плотностей их состоятельными оценками [8, 9].

Наличие описанных выше оптимальных и асимптотически оптимальных правил диагностики (дискриминантного анализа, распознавания образов с учителем) не означает, что не следует разрабатывать новые алгоритмы диагностики. Исходя, например, из необходимости сокращения машинной памяти и времени на расчеты. Однако, на наш взгляд, необходимо сравнивать новые алгоритмы с известными оптимальными и асимптотически оптимальными алгоритмами по тем или иным показателям качества.

Похожие статьи




Введение, Оптимальный метод диагностики основан на непараметрических оценках плотности - Базовые результаты математической теории классификации

Предыдущая | Следующая