Кластерный анализ - Кластерный анализ

Кластерный анализ -- способ группировки многомерных объектов, основанных на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как "сгустков" этих точек. Безусловными достоинствами кластерного анализа являются относительная простота используемых алгоритмов, ясность прочтения визуализированного материала в виде дендрограммы или по упорядоченной матрице расстояний, возможность контролируемого вмешательства в работу алгоритма и изменение параметров задания.

Отличительная особенность кластерного анализа от других методов многомерного анализа -- жесткая зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа -- выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были в известном смысле похожи друг на друга, а объекты из разнородных отличались. группировка многомерный геометрический кластерный

Задача кластерного анализа -- выделить в пространстве и визуализировать эти естественные скопления. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как и наблюдаемая качественная переменная. Таким образом, Задачей становится поиск данной переменной и ее интерпретация (в этом случае кластерный анализ весьма приближается к факторному). Различают неэталонные (исходные принципы классификации не задаются) и эталонные процедуры. Во втором случае задаются исходные зоны, поля, с помощью которых начинает работу алгоритм. Эталоны могут быть следующего вида: подмножество исходного множества (первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (центр тяжести класса). Кроме того, существует множество процедур кластеризации, работающих по другому принципу: иерархические алгоритмы, процедуры диагонализа - ции, разрезание графов и т. д.

При выполнении кластерного анализа мы должны четко понимать возможности, т. е. выполняемую задачу этого метода -- разбиение совокупности на однородные подможества объектов. Дискриминантный анализ -- вариант многомерного статистического анализа, включающий статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками ("классификация с учителем"), Дискриминантный анализ выполняет задачу и классификации. В определенном смысле дискриминантный анализ направлен на решение задач, обратных целям кластерного анализа, поскольку в данном случае критерии классификации объектов задаются изначально, а задача заключается в том, чтобы определить, насколько эти подобранные правила классификации являются удовлетворительными. Он направлен на решение задачи, когда известно о существовании определенного числа (больше или равно 2) непересекающихся групп, и требуется построить основанное на имеющихся выборках наилучшее (в определенном смысле) классифицирующее правило, позволяющее приписать некоторый новый элемент (многомерное наблюдение X) к своей подгруппе в ситуации, когда исследователю заранее неизвестно, к какой из совокупностей этот элемент принадлежит.

Обычно под классифицирующим правилом понимается последовательность действий: по вычислению некоторой функции от исследуемых показателей, по упорядоченности самих показателей, по вычислению соответствующих вероятностей ошибочной классификации. При этом допускается, что есть объекты, не относящиеся ни к одной из классифицируемых групп. Кроме того, в ходе анализа определяется "вес" каждой переменной, использованной для классификации объектов по группам. То есть с помощью дискриминантного анализа отбираются переменные, наилучшим образом подходящие для достоверного предсказания. Таким образом, дискриминантный анализ можно отнести к методам прогнозирования, основанным на принципе экстраполяции -- перенесении в будущее обнаруженных закономерностей.

Дискриминантный анализ решает две основные задачи. Во-первых, с его помощью можно понять, насколько точно можно различать классы исследуемых объектов. Во-вторых, можно подобрать признаки, с помощью которых можно выполнять это различение. Дискриминантный анализ позволяет строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминирующих признаков) было немного. Наиболее простым в исполнении является линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков. Многомерное шкалирование представляет сложные данные в визуальной форме, что облегчает их восприятие и интерпретацию по сравнению с табличной формой. Существуют три разновидности МШ: метрическое, неметрическое и индивидуальное. Метрическое и неметрическое МШ различаются по уровню измерения исходных данных. Метрическое шкалирование требует метрических данных (получаемых в результате использования абсолютных шкал), а следовательно, непригодно для большей части получаемых исследователем первичных эмпирических данных. Неметрическое шкалирование накладывает гораздо меньшие ограничения и позволяет использовать данные более низкого уровня измерения (порядковых шкал). Метрическое МШ при построении функции учитывает числовые отношения между объектами, а неметрическое -- их порядок. Модель индивидуальных различий применялась вначале для изучения степени отличия оценок стимулов у различных людей, отсюда и происходит название.

В качестве исходных данных для шкалирования могут быть взяты не сами оценки степени сходства объектов, а результаты их ранжирования. Эти методы анализа называют неметрическим шкалированием. МШ может быть применено при изучении политических деятелей, элиты. В этом случае исходными данными для анализа могут служить экспертные оценки сходства или различия взглядов полигиков по некоторым проблемам. В качестве исходных данных можно использовать голосование политиков по тем или иным вопросам. МШ в этом случае поможет ответить на вопрос о характеристиках, которые в действительности определяют характер голосования.

В МШ помимо корреляционной матрицы в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. При реализации алгоритма многомерного шкалирования получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во "вспомогательных шкалах", связанных с латентными переменными), причем размерность нового пространства признаков существенно меньше размерности исходного (обычно двух - или трехмерная).

Исследователь просматривает различные варианты визуализации результатов многомерного шкалирования, выбирает наиболее удачные варианты, в которых явно выделяются конфигурации объектов, а затем пытается объяснить эти специфические конфигурации с помощью какой-либо концепции.

Похожие статьи




Кластерный анализ - Кластерный анализ

Предыдущая | Следующая