Обобщенный алгоритм кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Коллекция транзакций хранится в файле на диске. Алгоритм читает каждую транзакцию t последовательно и присоединяет t к существующему кластеру, или создает t как новый кластер, тот который минимизирует стоимость для текущей кластеризации. Идентификатор кластера каждой транзакции записывается обратно в файл. Это называется фазой размещения. В фазе усовершенствования алгоритм читает каждую транзакцию t (в том же порядке как в фазе размещения), перемещает t в существующий не одиночный кластер (возможно, оставляет там, где она есть), чтобы минимизировать Cost(C). После каждого перемещения идентификатор кластера у транзакции обновляется, и любой пустой кластер немедленно уничтожается. Если ни одна транзакция не перемещается при проходе по всем транзакциям, фаза усовершенствования оканчивается. В противном случае начинается новый проход. Существенно, что при добавлении каждой транзакции минимизируется глобальный критерий стоимости Cost(C). Ключевым шагом является нахождение адреса кластера для размещения или перемещения транзакции. Этот вопрос обсуждается ниже.

Парадигма следования фазы усовершенствования за фазой размещения заимствована из алгоритмов k-средних и k-мод. Однако в предлагаемом алгоритме имеются важные отличия. Во-первых, не требуется предварительно определять число k кластеров. Вместо этого кластеры создаются и уничтожаются динамически на основе критерия стоимости. Во-вторых, адрес кластера транзакции определяется не по расстоянию до ближайшего кластера или до его моды/центроида, а путем расчета стоимости Cost(C), являющейся не локальным, а глобальным критерием качества.

/* Фаза размещения транзакций */

1. while not end of the file do 2. read the next transaction < t, -- >; 3. allocation t to an existing or new cluster Ci to minimize Cost(C); 4. write ;

/* Фаза улучшения кластеризации */

5. repeat 6. not_moved = true; 7. while not end of the file do 8. read the next transaction < t, ci > ; 9. move t to an existing non-singleton cluster Cj to minimize Cost(C); 10. if Ci ? Cj then 11. write < t, cj >; 12. not_moved = false; 13. eliminate any empty cluster; 14. until not_moved;

Рис. 5 Обобщенный алгоритм кластеризации

Похожие статьи

Понятие транзакций и проблема их кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Термин "транзакция" относится к подмножеству предметов из общей совокупности с переменным числом предметов (мощностью подмножества). Транзакциями...
Кластеризация, Классификация алгоритмов кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Кластеризация (или кластерный анализ) -- это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться...
Сравнение алгоритмов - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Вычислительная сложность алгоритмов Алгоритм кластеризации Вычислительная сложность Иерархический O(n2) K-средних O(nkl), где k - число кластеров, l -...
Представление предметной области, Понятие Data Mining - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Понятие Data Mining Средства Data Mining включают в себя очень широкий класс различных технологий и инструментов. Средства Data Mining на рынке...
Кластеризация транзакций с использованием концепции часто встречающихся ("больших") предметов, Подход, основанный на "больших" предметах и функциональный критерий кластеризации, Внутри кластерная стоимость (непохожесть) - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Подход, основанный на "больших" предметах и функциональный критерий кластеризации Поддержка предмета в кластере Ci есть относительное число транзакций в...
Введение - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

В наше время все большее количество компаний, стремясь к повышению эффективности и прибыльности бизнеса пользуются цифровыми (автоматизированными)...
Выбор программного обеспечения для реализации проекта - Разработка ключевых показателей эффективности для ИТ-отдела организации

Выбор программного обеспечения для внедрения KPI целиком и полностью упирается в потребности конкретной компании. Благодаря все большей и большей...
Преимущества автоматизации, Возможные недостатки автоматизации - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Преимущества, которые дает тестировщику автоматизация тестирования: - Исключен "человеческий фактор". Существует некоторая гарантия того, что не один...
Программная реализация системы регистрации речи диспетчерских переговоров, Общее описание программного обеспечения, реализующего разработанный алгоритм - Разработка системы регистрации новых пользователей

Общее описание программного обеспечения, реализующего разработанный алгоритм Основной идеей дипломного проекта, является реализация алгоритма...
Исследование рынка, Планирование цены и прогнозирование прибыли - Разработка алгоритма генерации для создания базы данных искусственных биометрических образов

В настоящее время биометрия входит в состав наиболее распространенных технологий и средств защиты информации. Отпечатки пальцев являются самой широко...
Затраты на организацию рабочих мест, Накладные расходы, Суммарные затраты на реализацию программного проекта - Разработка алгоритма генерации для создания базы данных искусственных биометрических образов

Расчет затрат, связанных с организацией рабочих мест для исполнителей проекта, проводится на основе требований СНИПа (санитарные нормы и правила) и...
Автоматизация тестирования - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Автоматизированное тестирование программного обеспечения - это процесс проверки программного обеспечения, который включает в себя такие шаги как запуск,...
Заключение - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

В то время как цель проекта заключалась в оценке эффективности автоматизации тестирования функционала ядра, работа стала своего рода подведением итогов...
Результаты - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Для того, чтобы вынести решение об оправданности или неоправданности внедрения автоматизированного тестирования вместо ручного, необходимо...
Ход работы - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

В течении года от команды разработчиков пришло 6 пакетов, содержащих изменения в ядре программы. Для каждого пакета составлялось в среднем от 1-ого до...
Структура и конфигурирование Cucumber - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Для того чтобы выполнить автоматическое тестирование с использованием Cucumber, прежде всего необходимо иметь представление о структуре инструмента и...
Практическая часть. Структура тестируемого приложения - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Тестируемый программный продукт является высокопроизводительным приложением, которое предоставляет возможность создания и настройки сетей беспроводного...
Введение - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Компания MERA Networks - является одним из крупнейших мировых поставщиков услуг в сфере информационно-коммуникационных технологий. MERA предлагает...
Инструменты разработки клиентской части, Модель базы данных - Программное обеспечение для пропускной системы на основе технологии NFC

Поскольку клиентская часть представляет собой приложение на базе операционной системы Android, то для ее разработки был выбран рекомендуемый...
. Определение числа исполнителей, Построение сетевого графика - Разработка алгоритма генерации для создания базы данных искусственных биометрических образов

Для оценки возможности выполнения проекта имеющимся в распоряжении разработчика штатным составом исполнителей, нужно рассчитать их среднее количество,...
Выбор алгоритмов для реализации - Программа трехмерной реконструкции сцены по изображениям и данным сканирования глубины

Приложение, которое необходимо разработать, должно производить геометрическую реконструкцию сцены и вычисление цвета вершин модели. Для геометрической...
Разработка структурной схемы проекта и структуры программного обеспечения, Проектирование базы данных - Разработка и тестирование автоматизированной системы контроля успеваемости студентов

При работе над проектом разрабатывались два основных компонента системы: база данных (далее - БД) и интерфейс клиентского приложения. Затем необходимо...
Сохранение отчетности в *.xls файл, Реализация базы данных - Разработка методов конвертирования данных из текстового в реляционный формат при проведении компьютерных экспериментов

При запуске программы с входными параметрами {"-makexls" "filename. xls" "температурная_точка" "отклонение" "элемент"} происходит извлечение результатов...
Разработка алгоритма отдельной подзадачи, Руководство пользователя - Выбор оптимального маршрута для строительства дороги

Разработаем алгоритм одного из основных методов, используемого в данной программе. Private void pictureBox1_MouseDown(objects sender, MouseEventArgs e)...
Вычисление цвета вершин полигональной модели, Алгоритм Q.-Y. Zhou и V. Koltun для вычисления цвета вершин модели - Программа трехмерной реконструкции сцены по изображениям и данным сканирования глубины

Для вычисления цвета могут быть использованы различные подходы. Вычисление цвета может проводиться одновременно с геометрической реконструкцией,...
Автоматическая очистка папки Scanning, Создание Log файла, Результаты экспериментального тестирования прототипа - Разработка программно-аппаратного комплекса для удаленного контроля почтовой корреспонденции

При перезагрузке Raspbery счетчик counter сбрасывается и файлы начинают перезаписываться. Для того, чтобы обойти данную проблему воспользуемся переносом...
Версионность базы данных - Программное обеспечение для пропускной системы на основе технологии NFC

С ростом приложения существует проблема обновления схемы базы данных с сохранением внесенных данных. Если информация в базе данных не может быть легко...
Разработка алгоритма программы, Кодирование и тестирование программы, Интеграция программы в Actel Libero IDE - Методика обеспечения сбоеустойчивости программируемой логической интегральной схемы для ракетно-космического применения

Работа программы представлена на рисунке 2.3 Рис. 2.3 Кодирование и тестирование программы Программа кодировалась на языке Си++, используя библотеку Qt5x...
Разработка программного обеспечения, Постановка задачи на разработку программного обеспечения, Разработка состава программы - Методика обеспечения сбоеустойчивости программируемой логической интегральной схемы для ракетно-космического применения

Постановка задачи на разработку программного обеспечения Для того чтобы предлагаемая схема была интегрирована в САПР, который не имеет функции интеграции...
Реализация и анализ результатов, Считывание сложноструктурированных данных - Разработка методов конвертирования данных из текстового в реляционный формат при проведении компьютерных экспериментов

Считывание сложноструктурированных данных При разработке программного обеспечения был выбрано построковое считывание данных, ввиду использования...
Необходимые технологии и программное обеспечение. Цели и задачи работы. Итоги первой части - Реализация метода конечных элементов для расчета ферменных конструкций под ОС Android

Для реализации поставленной задачи методом конечных элементов будут использованы следующие программные обеспечения (ПО): - MATLAB - ПО и одноименный язык...
Разработка программного обеспечения, Выбор средств реализации информационной системы - Автоматизация процесса работы руководства ООО "Сервис партнер"

Выбор средств реализации информационной системы Названные в параграфе 1.4. настоящей работы задачи могут быть решены тремя типами средств автоматизации:...
Обобщенная характеристика технологий Big Data - Технологии больших данных: анализ и выбор решения для реализации проекта

Для осуществления первой задачи данной работы был проведен проведение подробный анализ семи наиболее распространенных технологий работы с Большими...
Реализация алгоритма соединения объектов линией - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

Для того, чтобы строить диаграммы в соответствии с рисунком 2.7, необходимо реализовать алгоритм соединения двух объектов линией. Для отображения линии...
Преобразование полученных данных - Разработка программно-аппаратного комплекса для мониторинга рентгеновского симулятора SLS-9

После обмена данными с АЦП происходит преобразование считанных данных в одно целое число, характеризующее уровень сигнала на входе АЦП. Т. к. АЦП имеет...
Лабораторная работа № 2. Классы. Программирование линейных алгоритмов с использованием функций инициализации set() и вывода результатов print() - Технология разработки программного обеспечения систем управления

Цель Работы - изучить основные способы работы с пользовательским типом данных "класс", его объектами, методами и способы доступа к ним. - Теоретические...
Лабораторная работа № 1. Программирование алгоритмов с использованием динамических массивов - Технология разработки программного обеспечения систем управления

Цель Работы - научиться использовать операции динамического выделения и освобождения памяти на примере работы с одномерными и двумерными массивами, а...
Разработка информационной системы, 2.1 Описание структуры базы данных - Программное обеспечение Центра занятости населения

2.1 Описание структуры базы данных Реляционная схема базы данных для ЦЗН представлена следующими таблицами: "ПО" - содержит список единиц программного...
Программное обеспечение, Данная программа предназначена для более быстрого поиска почтового индекса адресата - Программное обеспечение вычислительной техники и автоматизированных систем

1. НА 7 ПК ИСПОЛЬЗУЕТСЯ microsoft Windows xp sp2. 2. на 1 используется Altlinux 5 3. Программы офисного назначения: A) Microsoft Office Excel 2003 B)...
РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ - Разработка программно-аппаратного комплекса для мониторинга рентгеновского симулятора SLS-9

После преобразования аналогового сигнала в цифровую форму с помощью АЦП возникает необходимость в программной обработке полученного цифрового сигнала....

Обобщенный алгоритм кластеризации - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Предыдущая | Следующая