Deductor Studio 5.1 - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Так как разработанное ранее приложение LargeItem выводит в выходном файле "большие предметы", то используя специальный аналитический инструмент возможно проверить совпадение "больших предметов", выведенных программой, и частых множеств найденных в той же самой БД.

Одним из способов проверки корректности работы приложения LargeItem может являтся сравнение ее результатов с результатом работы аналитической платформы Deductor Studio 5.1. Платформа разработана рязанской фирмой "BaseGroup Labs".

Deductor Studio - предоставляет аналитикам инструментальные средства, необходимые для решения самых разнообразных аналитических задач. В области Data Mining, например:

    - Прогнозирование - выполняет прогнозирование временного ряда. - Автокорреляция - выполняет автокорреляционный анализ данных. - Линейная регрессия - строит модель данных в виде набора коэффициентов линейного преобразования. - Нейросеть - выполняет обработку данных с помощью многослойной нейронной сети. - Дерево решений - выполняет обработку данных с помощью деревьев решений. - Самоорганизующиеся карты - выполняет кластеризацию данных. - Ассоциативные правила - обнаружение зависимостей между связанными событиями. Поиск частых множеств. - Пользовательская модель - задание модели вручную по формулам.

Вышеперечисленное является малой частью возможностей платформы.

В данной работе нас интересует возможность Deductora находить частые множества в процессе вывода ассоциативных правил. При поиске частых множеств Deductor, так же как и мое приложение, использующее алгоритм Diffsets, считывает всю базу данных в оперативную память. Далее Deductor ищет с помощью одного из горизонтальных алгоритмов частые множества.

К сожалению, Deductor не работает при поиске частых множеств в базах объемах больше 12000 транзакций. При поиске выдается ошибка, и обработка данных прекращается. Возможно, эта ошибка конкретной версии программы, скачанной с официального сайта. Или данная лицензия имеет ограничение на объем данных.

Тем не менее, мы будем использовать Deductor для тестирования небольших баз.

Далее рассмотрим процесс поиска частых множеств с помощью Deductora:

Запускаем Deductor Studio 4.4. Вначале мы настраиваем источник данных, то есть средство, с помощью которого Deductor будет подключаться к базе данных транзакций.

Для этого необходимо перейти в вид "Источники данных". Вызываем меню "Вид" и выбираем в нем пункт "Источники данных". В правом окошке открывшегося вида находится дерево источников данных по типам.

Типов источников три:

    1) Базы данных 2) Хранилище данных 3) Бизнес-приложение

Для импорта базы данных транзакций нам подходит первый тип. Щелкаем правой кнопкой мыши по дереву. В открывшемся списке выбираем пункт "Добавить источник данных". В данном пункте выбираем подпункт "Добавить базу данных" (рисунок 29).

создание источника данных

Рис. 29 Создание источника данных

Далее вам предлагается список баз данных, которых можно подключить. Для подключения MySql нам подходят два варианта из списка: "MySql" и "ODBC".Если вы выберете "MySql", то соединение будет создано для одной конкретной базы. И для каждой базы придется создавать свое подключение, что может быть неудобно.

Если выбрать вариант "ODBC", то соединение будет создано для сервера, а конкретную базу данных мы будем выбирать при непосредственном импорте данных. Последний вариант мне кажется более удобным.

После выбора появится окно настроек подключения рисунок 30. Для тестирования нам понадобится минимум настроек:

    - Имя - Название подключение - Описание - описание подключения. Фактически, является комментарием, можно не заполнять. - Описание подключения - заполняется автоматически. - База данных - здесь необходимо выбрать подключение, настроенное подключение к ODBC драйверу.

Логин и пароль у нас уже прописан в выбранном подключении к ODBC драйверу. Другие настройки в нашем тестировании не понадобятся.

окно настроек подключения

Рис. 30 Окно настроек подключения

Работоспособность подключения можно проверить, щелкнув по иконке штекера в левом верхнем углу окна настроек.

Соединение создано, далее необходимо импортировать базу данных транзакций. Переходим в вид "Сценарии": открываем меню "Вид" и выбираем в нем пункт "Сценарии".

В открывшемся виде щелкаем правой кнопкой мыши по левому окну, содержащему список сценариев. В открывшемся меню выбираем "Мастер импорта". На экран выводится список типов объектов импорта. Выбираем пункт: "База данных - настроенный источник данных".

В окне настроек импорта (Рисунок 31) в поле "База данных" выбираем настроенный нами в начале пункта 4.2 источник данных. Можно импортировать целиком таблицу из базы данных, но поскольку таблица товаров в базе данных содержит не названия товаров, а всего лишь их ключи, придется формировать запрос. Формула запроса выглядит так:

Select trans. tid, tovars. title from <название базы>.trans, <название базы>.tovars where trans. elem=tovars. uniqkey

Где tovars - название таблицы товаров, trans - название таблицы транзакций.

В следующем окне запускаем импорт, и, если подключение настроено правильно и формула запроса введена без ошибок, то импорт пройдет успешно.

После окончания импорта пользователю будет предложено настроить вид отображения полученных данных (Рисунок 32).

В первом окне на рисунке 32 мы задаем параметры столбцов, то есть, указываем, какой столбец содержит ID транзакций (идентификатор), а какой элемент. Импортированная база данных представлена на рисунке 26

настройка внешнего вида импортированных данных

Рис. 32 Настройка внешнего вида импортированных данных

импортированная в deductor база данных

Рис. 33 Импортированная в Deductor база данных

Кластеризация алгоритм транзакция

Для начала обработки импортированных данных нужно кликнуть правой кнопкой мыши на лист импорта в левом окне в списке сценариев. В открывшемся меню выбрать "Мастер обработки". Платформа Deductor предложит способ обработки. Выбираем в списке "Ассоциативные правила". Система предложит еще раз определить типы столбцов, аналогично верхнему экрану на рисунке 33. Определяем и нажимаем "далее".

Откроется окно настройки параметров поиска ассоциативных правил (Рисунок 34).

настройка параметров построения ассоциативных правил

Рис. 34 Настройка параметров построения ассоциативных правил

Ассоциативные правила мы строить не собираемся, поэтому настройки раздела "Ассоциативные правила" не трогаем. Указываем минимальную поддержку, скажем, 20%. А максимальную поддержку устанавливаем на 100%. В следующем окне запускаем процесс поиска частых множеств.

Когда поиск закончен, предлагается выбрать способ представления результатов. Наиболее подходящий нам способ называется "Популярные наборы - отображение текста часто встречающихся множеств". На экран будут выведены результаты поиска (Рисунок 35)

Сравнив результаты работы Deductor и результаты работы программы LargeItem можно видеть, что популярные наборы выдаваемые Deductorом совпадают с "большими предметами", получаемыми после работы программы LargeItem, что говорит о корректности работы алгоритма.

Рис. 35 Результаты поиска частых множеств в Deductor

Похожие статьи




Deductor Studio 5.1 - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Предыдущая | Следующая