Итеративная кластеризация в SPSS - Кластерный анализ
Обычно в статистических пакетах реализован широкий арсенал методов, что позволяет сначала провести сокращение размерности набора данных (например, при помощи факторного анализа), а затем уже собственно кластеризацию (например, методом быстрого кластерного анализа). Рассмотрим этот вариант проведения кластеризации в пакете SPSS.
Для сокращения размерности исходных данных воспользуемся факторным анализом. Для этого выберем в меню: Analyze (Анализ)/Data Reduction (Преобразование данных)/Factor (Факторный анализ):
При помощи кнопки Extraction:(Отбор) следует выбрать метод отбора. Мы оставим выбранный по умолчанию анализ главных компонентов, который упоминался выше. Также следует выбрать метод вращения - выберем один из наиболее популярных - метод варимакса. Для сохранения значений факторов в виде переменных в закладке "Значения" необходимо поставить отметку "Save as variables" (Сохранить как переменные).
В результате этой процедуры пользователь получает отчет "Объясненная суммарная дисперсия", по которой видно число отобранных факторов - это те компоненты, собственные значения которых превосходят единицу.
Полученные значения факторов, которым обычно присваиваются названия fact1_1, fact1_2 и т. д., используем для проведения кластерного анализа методом k-средних. Для проведения быстрого кластерного анализа выберем в меню:
Analyze (Анализ)/Classify(Классифицировать)/K-Means Cluster: (Кластерный анализ методом k-средних).
В диалоговом окне K Means Cluster Analysis (Кластерный анализ методом k-средних) необходимо поместить факторные переменные fact1_1, fact1_2 и т. д. в поле тестируемых переменных. Здесь же необходимо указать количество кластеров и количество итераций.
В результате этой процедуры получаем отчет с выводом значений центров сформированных кластеров, количестве наблюдений в каждом кластере, а также с дополнительной информацией, заданной пользователем.
Таким образом, алгоритм k-средних делит совокупность исходных данных на заданное количество кластеров. Для возможности визуализации полученных результатов следует воспользоваться одним из графиков, например, диаграммой рассеивания. Однако традиционная визуализация возможна для ограниченного количества измерений, ибо, как известно, человек может воспринимать только трехмерное пространство. Поэтому, если мы анализируем более трех переменных, следует использовать специальные многомерные методы представления информации, о них будет рассказано в одной из последующих лекций курса.
Итеративные методы кластеризации различаются выбором следующих параметров:
- - начальной точки; - правилом формирования новых кластеров; - правилом остановки.
Выбор метода кластеризации зависит от количества данных и от того, есть ли необходимость работать одновременно с несколькими типами данных.
В пакете SPSS, например, при необходимости работы как с количественными (например, доход), так и с категориальными (например, семейное положение) переменными, а также если объем данных достаточно велик, используется метод Двухэтапного кластерного анализа, который представляет собой масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов.
Для этого на первом этапе работы записи предварительно кластеризуются в большое количество суб-кластеров. На втором этапе полученные суб-кластеры группируются в необходимое количество. Если это количество неизвестно, процедура сама автоматически определяет его. При помощи этой процедуры банковский работник может, например, выделять группы людей, одновременно используя такие показатели как возраст, пол и уровень дохода. Полученные результаты позволяют определить клиентов, входящих в группы риска невозврата кредита.
Похожие статьи
-
Итеративные методы, Алгоритм k-средних (k-means) - Кластерный анализ
При большом количестве наблюдений иерархические методы кластерного анализа не пригодны. В таких случаях используют неиерархические методы, основанные на...
-
Предварительное сокращение размерности, Факторный анализ - Кластерный анализ
Рассмотрим пример. Есть база данных клиентов фирмы, которых следует разбить на однородные группы. Каждый клиент описывается при помощи 25 переменных....
-
Иерархический кластерный анализ в SPSS - Кластерный анализ
Рассмотрим процедуру иерархического кластерного анализа в пакете SPSS (SPSS). Процедура иерархического кластерного анализа в SPSS предусматривает...
-
Методы Кластерного Анализа, Иерархические методы - Кластерный анализ
Иерархические методы С понятием кластеризации мы познакомились в первом разделе курса. В этом мы опишем понятие "кластер" с математической точки зрения,...
-
Определение количества кластеров - Кластерный анализ
Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в...
-
Методы кластерного анализа, Иерархические методы кластерного анализа - Кластерный анализ
Методы кластерного анализа можно разделить на две группы: - иерархические; - неиерархические. Каждая из групп включает множество подходов и алгоритмов....
-
Кластерный анализ - Кластерный анализ
Кластерный анализ -- способ группировки многомерных объектов, основанных на представлении результатов отдельных наблюдений точками подходящего...
-
Проверка качества кластеризации, Алгоритм PAM ( partitioning around Medoids) - Кластерный анализ
После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т. е. оценить, насколько кластеры...
-
Методы объединения или связи - Кластерный анализ
Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос - как...
-
Основные понятия корреляционно-регрессионного анализа Теория и методы корреляционного анализа используются для выявления связи между случайными...
-
ДОПУЩЕНИЯ МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА, ФАКТОРНЫЙ АНАЛИЗ - Многомерный статистический анализ
Регрессионная модель при оценке параметров и проверке значимости исходит из ряда допущений: 1. Ошибочный член уравнения регрессии (остаточный компонент)...
-
Меры сходства - Кластерный анализ
Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний. В...
-
Метод наименьших квадратов - Корреляционно-регрессионный анализ
Для определения коэффициентов уравнения регрессии b применяют разные методы (графический, метод средних), однако наибольшее распространение получил метод...
-
Неперекристаллизованный препарат, полученный по методике, описанной выше, содержал примесь калий йодида. Это легко обнаруживалось при слабом подкислении...
-
Применение статистических методов анализа для адекватной интерпретации результатов контроля остаточных знаний соискателей высшего образования на примере...
-
Данный метод подробно описан в [8]. Пусть - количество акций, а - количество дней наблюдений за выбранными - акциями. В данном случае доходность акции в...
-
Регрессия -- зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Задача регрессионного анализа...
-
ПОНЯТИЕ ДИСПЕРСИОННОГО АНАЛИЗА - Многомерный статистический анализ
Дисперсионный анализ - Это статистический метод изучения различий между выборочными средними двух или больше совокупностей. Как правило, Нулевая гипотеза...
-
МЕТОДЫ СРАВНИТЕЛЬНОГО ШКАЛИРОВАНИЯ - Многомерный статистический анализ
Шкалирование методом попарного сравнения - Это метод сравнительного шкалирования, при котором респонденту дается два объекта для выбора по определенному...
-
Неравенство Бонферрони часто используется при множественном тестировании на значимость, главная идея состоит в установке верхней границы FWER. Пусть -,...
-
Введение - Анализ статистических свойств процедуры построения минимального остовного дерева
Проблема исследования фондовых рынков возникла еще в середине 20 века. Актуальность ее состоит в том, что фондовые рынки имеют решающее значение в...
-
После получения матриц спектра плана, проведем 70 опытов в каждой точке. По полученным параметрам построим регрессионную модель второго порядка,...
-
Адсорбционные методы исследования свойств поверхности позволяют количественно охарактеризовать происходящие при адсорбции межмолекулярные взаимодействия,...
-
Введение - Регрессионный анализ в экономических исследованиях
Актуальность выбранной темы определяется тем, что в эконометрике широко используются методы статистики. Во многих практических задачах прогнозирования,...
-
Пусть необходимо подобрать оптимальные настройки для объекта с передаточной функцией (9). Степень затухания, к примеру, ш= 0.75. Ниже даются рекомендации...
-
Целью курсовой работы является эффективная организация работы отдела планирования и экономического анализа Могилевского филиала РУП "Белтелеком"....
-
Сущность и основные условия применения корреляционного анализа В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение...
-
В результате первой стадии статистического исследования (статистического наблюдения) получают статистическую информацию, представляющую собой большое...
-
Описание реальных отношений между экономическими объектами и производственными процессами наиболее рационально и в полной мере осуществляется с помощью...
-
Заключение - Нейтрон-спектрометрический анализ изотопного состава обогащенных проб гафния
За время выполнения дипломной работы, были получены знания о НСА и методах обработки спектров пропускания, приобретены навыки работы с программами...
-
Рентгенофазовый анализ (РФА), Общие сведения - Основы качественного анализа
Общие сведения Из множества физических и физико-химических методов анализа в нашем практикуме используется лишь один, наиболее важный для химии и физики...
-
С помощью регистрирующих приборов - самописцев, которые измеряют и автоматически записывают последовательность сигналов детектора, получают кривую...
-
Заключение - Анализ статистических свойств процедуры построения минимального остовного дерева
В данной работе были проанализированы методологии для определения статистической неопределенности на примере одного из широко используемых методов...
-
СУЩНОСТЬ КЛАСТЕРНОГО АНАЛИЗА - Многомерный статистический анализ
С помощью кластерного анализа, как и рассмотренного нами факторного анализа, можно проверить весь набор взаимозависимых связей. В кластерном анализе не...
-
Элементы технологических схем производства формальдегида на оксидном катализаторе (рисунок 1.3 и 2.2) не совпадают, поскольку программная система Hysys...
-
ВРАЩЕНИЕ И ИНТЕРПРЕТАЦИЯ ФАКТОРОВ - Многомерный статистический анализ
Вращение факторов. Матрицу факторных нагрузок называют также матрицей факторного отображения. Она содержит коэффициенты, используемые для выражения...
-
ОПРЕДЕЛЕНИЕ МЕТОДА ФАКТОРНОГО АНАЛИЗА И ЧИСЛА ФАКТОРОВ - Многомерный статистический анализ
Определение метода факторного анализа. Различные методы факторного анализа различаются в зависимости от подходов, которые используются для выделения...
-
Построение и анализ эконометрической модели - Построение экономических моделей
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)...
-
Тадии парного регрессионного анализа можно представить на следующем рисунке ПОЛЕ КОРРЕЛЯЦИИ Это графическое изображение точек с координатами, которые...
-
На основе данных таблицы 1 приложения А построим предварительную регрессионную модель: Модель 1: МНК, использованы наблюдения 2005:01-2007:12 (T = 36)....
Итеративная кластеризация в SPSS - Кластерный анализ