Разработка СППР на основе методов интеллектуального анализа данных, Предложенный подход к решению задач исследования - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании
Предложенный подход к решению задач исследования
Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к решению поставленных задач исследования, были выбранны следующие программы для работы и анализа данных:
- - MS Excel 2016 - MS SQL Server 2012 Business Intelligence - MS Visual Studio 2012 с пакетом SQL Server Data Tools - ErWin Data Modeler версии r9.64
Основываясь на теоретической части первой главы можно выделить три основных подсистемы анализа:
- - Система аналитических запросов (SQL); - OLAP-системы; - Системы интеллектуального анализа данных (Data Mining).
Для выполнения всех поставленных задач исследования и получения конечного результата в виде качественных результатов анализа, необходимо использовать подходящие методы анализа. Например, кластеризация, поиск ассоциативных правил, логистическая и линейная регрессии. Данные методы необходимы для глубокого изучения данных и поиска скрытой информации в данных. Это способствует последующему принятию маркетинговых решений. По этой причине, подходящей подсистемой для внедрения была выбрана система интеллектуального анализа данных, или Data Mining. Вопрос внедрения Data Mining актуален еще и по той причине, что на текущий момент были проверены все предложенные гипотезы и получены результаты с помощью методов SQL и OLAP. Внедрение системы Data Mining является важным эволюционным этапом в развитии аналитической платформы маркетингового отдела.
В рамках проводимого исследования будут использованы следующие методы Data Mining:
- Алгоритм дерева принятия решений (Microsoft). Представляет собой алгоритм классификации и регрессии, который описывается в Главе I. Данный алгоритм был выбран, как наиболее подходящий для задачи выявления основных типов поведения клиентов.
Пусть Y - зависимая целевая переменная, которая анализируется, классифицируется и обобщается. Пусть x - это вектор, состоящий из входных переменных.
Набор данных анализируется, классифицируется и обобщается с помощью математических и вычислительных методов, которые могут быть записаны следующим образом:
,
Существует множество различных способов для выбора очередного атрибута дерева решений. Из основных выделяют:
- O Алгоритм "ID3". Выбор атрибута происходит, основываясь либо на приросте информации, либо на индексе Гини (Gini) O Алгоритм "С4.5". Представляет собой улучшенную версию алгоритма "ID3". Выбор атрибута происходит на основании нормализованного прироста информации O Автоматический детектор взаимодействия Хи-Квадрат. Выполняет многоуровневое разделение объектов множества при классификации деревьев - Алгоритм кластеризации (Microsoft). Представляет собой алгоритм кластеризации, который описывается в Главе I. Данный алгоритм был выбран, как наиболее подходящий для задачи сегментации клиентов по поведению.
Пусть X - множество объектов, а Y - множество кластеров.
P(x;x?) - заданная функция расстояния между объектами x ? X, x? ? X.
,
Конечная обучающая выборка объектов.
Требуется разбить выборку на непересекающиеся подмножества, которые называются "кластерами". Каждый кластер состоит из объектов множества X. Требуется, чтобы объекты множества из одного кластера были как можно более похожим между собой, но как можно более разными с объектами множества другого кластера. Алгоритм кластеризации представляет собой функцию, которая каждому объекту множества ставится в сопоставление кластер.
Множество Y можно определить заранее, но чаще машине предоставляется возможность выбрать оптимальное количество кластеров. Алгоритм кластеризации от Microsoft, как правило, генерирует 10 кластеров.
Задача кластеризации не является тривиальной и алгоритм кластеризации не определяется однозначно по причине того, что не существует однозначно наилучшего критерия качества кластерного анализа. Существует ряд критериев и алгоритмов кластеризации, которые осуществляют разумную кластеризацию, но каждый из методов дает свой результат
- Алгоритм логистической регрессии (Microsoft). Логистическая регрессия является статистическим методом определения влияния независимых переменных на зависимую. Основным отличием алгоритма от линейной регрессии является возможность использовать для анализа дискретные и логические переменные. Логистическая регрессия часто используется для прогнозирования переменной. Прогнозируемая переменная, как правило, является логической парой (бинарная переменная). В данном исследовании алгоритм логистической регрессии используется для прогнозирования оттока клиентов.
Как и в случае с алгоритмом линейной регрессии, задача логистической регрессии может быть записана в виде следующей формулы:
,
Где y - зависимая (предсказываемая) переменная, а - независимые (предсказывающие) переменные. В отличии от линейной регрессии, параметр y может быть не непрерывным на интервале [0...1], а дискретным или логическим. Конечным практическим результатом работы алгоритма является нахождения вероятности прогнозируемого события.
- Правила (алгоритм) взаимосвязей (Microsoft). Данный алгоритм выявляет закономерности в данных и строит правила. Выделяются группы объектов данных, которые с наибольшей вероятностью появляются одновременно. Данный алгоритм может быть использован как для описательных, так и для предсказательных задач. В данном исследовании алгоритм взаимосвязей был использован для прогнозирования оттока клиентов и задачи поиска взаимосвязей в данных.
Правила алгоритма взаимосвязей можно описать следующим способом:
,
Где и - вероятности набора (правила) {A, B};
- число транзакций с этим набором {A, B};
- общее количество транзакций.
Важность правил рассчитывается следующим образом:
,
Где - важность правила {A, B}.
Похожие статьи
-
Прогнозирование оттока клиентов Отделом маркетинга компании ELEMENTAREE было выявлено, что практически все клиенты, у которых отсутствовали заказы в...
-
Заключение - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании
В рамках проведенного исследования была проделана работа по разработке системы интеллектуального анализа данных для поддержки маркетинга производственной...
-
Теоретические предпосылки исследования Системы поддержки принятия решений Системы поддержки принятия решений (СППР), представляют собой приложения узкого...
-
Введение - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании
В связи возникших условий экономического кризиса наблюдается рост издержек маркетинговой деятельности. Отдел маркетинга компании "ELEMENTAREE" испытывает...
-
Задача поведенческой сегментации, формирование портретов клиентов по поведению Одними из основных задач анализа являлись: поведенческая сегментация...
-
Объектом исследования является производственная компания ООО "Элементари" (ELEMENTAREE) (http://www. elementaree. ru/). Исследования, отображаемые в...
-
Описание исходных данных На текущий момент (в силу большой загрузки IT-отдела) не реализован доступ к серверу с ХД, маркетинговые данные выгружаются в...
-
Увеличение эффективности деятельности отделов В рамках данной задачи производился анализ данных с целью выявления любых знаний, на базе которых можно...
-
Для того, чтобы разработать оптимальный метод интеграции сторонних систем в существующую ИТ-инфраструктуру систем компании, требуется точно поставить...
-
По результатам данного исследования необходимо выявить недостатки и ограничения существующих технологий интеграции. Для проведения исследования...
-
Определение методов реинжиниринга информационных систем Основные задачи, которые стоят перед проектировщиком, занимающимся реинжинирингом информационных...
-
Корпоративная интеграционная подсистема на базе IBM WebSphere Business Integration Message Broker [28] отвечает за выстраивание корпоративной...
-
Построение модели предметной области с помощью описания структур данных и программного кода является классическим подходом в разработке ИС. Зачастую...
-
Постановка задачи Имеющаяся база данных SQL имеет недостаточное количество полей и таблиц, не имеет упорядоченной структуры пользователей для работы с...
-
Онлайн исследования в социологии: новые методы анализа данных - Распространение новостной информации
На сегодняшний день анализ социальных сетей и медиа, Интернет-сообществ, пользователей в целом используется в основном в маркетинге. Компания может...
-
Решения компании IBM - Технологии больших данных: анализ и выбор решения для реализации проекта
Технологии анализа больших данных являются прекрасным дополнением к средам хранения больших данных. Множество применений включает в себя, например,...
-
Язык программирования R - Технологии больших данных: анализ и выбор решения для реализации проекта
Язык программирования R является универсальным и разработан для применения в следующих областях: разведочный анализ данных, классические статистические...
-
В данной главе представлено описание возможных вариантов совершенствования архитектуры предприятия в части гибкого подключения сторонних систем и их...
-
Прогнозируемая оценка проекта после реализации единой шины данных как прослойки между всеми компонентами ИТ-ландшафта компании выполняется по методу...
-
Необходимо исследовать зависимость влияния различных факторов на параметр, характеризующий производство. В качестве такого параметра было выбрано...
-
Методы Рунге-- Кутты-- важное семейство численных алгоритмов решения обыкновенных дифференциальных уравнений и их систем. Данные итеративные методы...
-
Для решения поставленных задач используются следующие методы: 1) Иерархия пользователей будет определена при помощи построения UML диаграммы, для...
-
SPSS Modeler [29] - это программный комплекс, позволяющий строить прогностические модели и применять эту информацию при принятии решений на уровне...
-
Информационная система крупной организации, как правило, представляет собой исторически сложившуюся совокупность отдельно работающих систем, которые...
-
Технические требования Техническое задание данной работы требует разработать программу для визуального редактирования HTML-кода. Программа должна быть...
-
Введение - Технологии больших данных: анализ и выбор решения для реализации проекта
В конце 2000х годов были уже сформированы решения класса Business Intelligence, которые являются альтернативой традиционным методам управления базами...
-
Разработка концептуальной модели базы данных При проектировании программ выясняются запросы и пожелания клиента и определяется возможный подход к решению...
-
Для осуществления первой задачи данной работы был проведен проведение подробный анализ семи наиболее распространенных технологий работы с Большими...
-
Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта
Продукт Apache Hadoop является свободной Java-платформой на обычном оборудовании. Проект был рожден посредством обработки материалов Google File System и...
-
За последние годы было разработано большое количество методологий и стандартов построения и описания различных уровней архитектуры организации, в том...
-
Классификации СППР - Система поддержки принятия решений
Для СППР отсутствует не только единое общепринятое определение, но и исчерпывающая классификация. Разные авторы предлагают разные классификации. На...
-
Для построения эффективной системы мониторинга необходимо определить объекты наблюдения, отслеживаемые показатели и сроки их представления, программные...
-
Методы разработки вычислительной сети: 1. Экспериментальный метод - персонал предприятия закупает "новинки" рынка компьютерной техники. Такой метод -...
-
Актуальность исследования. Компьютерный эксперимент - это исследование математической модели объекта изучения на ЭВМ, состоящее в том, что, по известным...
-
Идентификаторы языка Си, Понятие о типах данных - Основы программирования
Идентификаторы или имена служат для обозначения различных объектов программ: переменных (ячеек памяти), адресов, функций, файлов и т. д., иначе говоря -...
-
Выходные данные для работы программы представляют собой матрицу типа "функции-данные", где связь бизнес-функций и элементов данных описывается большим...
-
Обзор протокола Multi-Touch технологий передачи данных TUIO [7] - основной кроссплатформенный протокол с открытым исходным кодом Multi-Touch передачи...
-
Теоретическая основа линейного программирования, Симплекс метод - Линейное программирование
Симплекс метод Симплекс метод - метод линейного программирования, который реализует рациональный перебор базисных допустимых решений, в виде конечного...
-
Интерфейс Пользовательский интерфейс программного обеспечения является неотъемлемой его частью. Именно через интерфейс конечный пользователь будет...
-
В работе возникает необходимость выбора предметной области, в которой будет тестироваться каскадный классификатор. Главными вопросами на данном этапе...
Разработка СППР на основе методов интеллектуального анализа данных, Предложенный подход к решению задач исследования - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании