Кластеризация, Классификация алгоритмов кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Кластеризация (или кластерный анализ) -- это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться "похожие" объекты, а объекты разных группы должны быть как можно более отличны.

Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Применение кластерного анализа в общем виде сводится к следующим этапам:

    - Отбор выборки объектов для кластеризации. - Определение множества переменных, по которым будут оцениваться объекты в выборке.

При необходимости - нормализация значений переменных.

    - Вычисление значений меры сходства между объектами. - Применение метода кластерного анализа для создания групп сходных объектов (кластеров). - Представление результатов анализа.

После получения и анализа результатов возможна корректировка выбранной метрики и метода кластеризации до получения оптимального результата.

Классификация алгоритмов кластеризации

Существует две основные классификации алгоритмов кластеризации:

- Иерархические и плоские.

Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений.

Т. о. на выходе мы получаем дерево кластеров, корнем которого является вся выборка, а листьями -- наиболее мелкие кластера. Плоские алгоритмы строят одно разбиение объектов на кластеры.

- Четкие и нечеткие.

Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, т. е. каждый объект принадлежит только одному кластеру.

Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Т. е. каждый объект относится к каждому кластеру с некоторой вероятностью.

Похожие статьи




Кластеризация, Классификация алгоритмов кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Предыдущая | Следующая