Аннотация - Базовые результаты математической теории классификации

Математическая теория классификации содержит большое число подходов, моделей, методов, алгоритмов. Эта теория весьма многообразна. Выделим в ней три базовых результата - оптимальный метод диагностики (дискриминантного анализа), адекватный показатель качества алгоритма дискриминантного анализа, утверждение об остановке после конечного числа шагов итерационных алгоритмов кластер-анализа. А именно, на основе леммы Неймана - Пирсона показано, что оптимальный метод диагностики существует и выражается через плотности распределения вероятностей, соответствующие классам. Если плотности неизвестны, следует использовать их непараметрические оценки по обучающим выборкам. Часто используют такой показатель качества алгоритма диагностики, как "вероятность (или доля) правильной классификации (диагностики)" - чем этот показатель больше, тем алгоритм лучше. Показана нецелесообразность повсеместного применения этого показателя и обоснован другой - "прогностическая сила", полученная путем пересчета на модель линейного дискриминантного анализа. Остановка после конечного числа шагов итерационных алгоритмов кластер-анализа продемонстрирована на примере метода k-средних. По нашему мнению, эти результаты являются основными в теории классификации, с ними должен быть знаком каждый специалист, развивающий эту теорию или применяющий ее

Ключевые слова: математическая теория классификации, математическая статистика, прикладная статистика, диагностика, дискриминантный анализ, лемма неймана - пирсона, показатель качества алгоритма диагностики, вероятность правильной классификации, прогностическая сила, кластер-анализб остановка итерационного алгоритма, метод k-средних

Алгоритм дискриминантный вероятность математический

Annotation

Basic results of the mathematical theory of classification

The mathematical theory of classification contains a large number of approaches, models, methods, algorithms. This theory is very diverse. We distinguish three basic results in it - the best method of diagnosis (discriminant analysis), an adequate indicator of the quality of discriminant analysis algorithm, the statement about stopping after a finite number of steps iterative algorithms of cluster analysis. Namely, on the basis of Neyman - Pearson Lemma we have shown that the optimal method of diagnosis exists and can be expressed through probability densities corresponding to the classes. If the densities are unknown, one should use non-parametric estimators of training samples. Often, we use the quality indicator of diagnostic algorithm as "the probability (or share) the correct classification (diagnosis)" - the more the figure is the better algorithm is. It is shown that widespread use of this indicator is unreasonable, and we have offered the other - "predictive power", obtained by the conversion in the model of linear discriminant analysis. A stop after a finite number of steps of iterative algorithms of cluster analysis method is demonstrated by the example of k-means. In our opinion, these results are fundamental to the theory of classification and every specialist should be familiar with them for developing and applying the theory of classification

Keywords: mathematical theory of classification, mathematical statistics, applied statistics, diagnostics, discriminant analysis, neyman - pearson lemma, indicator of the quality of diagnostic algorithm, probability of correct classification, predictive power, cluster analysis, stopping the iterative algorithm, k-means

Похожие статьи




Аннотация - Базовые результаты математической теории классификации

Предыдущая | Следующая