Теоретические основы и анализ объекта исследования, Теоретические предпосылки исследования - Интеллектуальный анализ данных, который способствует поддержке маркетинга в компании

Теоретические предпосылки исследования

Системы поддержки принятия решений

Системы поддержки принятия решений (СППР), представляют собой приложения узкого профиля, которые предназначены для аналитиков и менеджеров, специализирующихся на данном профиле [8]. Они характеризуются возможностью реализации высокого уровня формализации выработки рекомендаций для принятия различных решений, включая управленческие. При этом, сильно снижается уровень "человеческого фактора", который может привести к субъективной оценке. На практике весьма востребованы информационные системы для автоматизации учета и управления. Это объясняется наличием высокоэффективных и высокопроизводительных типовых средств регистрации и обработки данных. Подобные СППР могут быть автоматическими или автоматизированными. Результатом работы СППР для автоматизации учета и управления является получение итоговых отчетов. Одной из основных задач информационной системы поддержки принятия решений является - выбор среди множества альтернатив одной, которая подходит наилучшим образом для достижения определенной цели. Для анализа данных в СППР используется множество различных методов. Среди передовых выделяют: интеллектуальный анализ данных, информационный поиск (аналитические запросы), поиск знаний в базах данных (поиск скрытой, неочевидной информации в данных), имитационное моделирование, нейронные сети и др. СППР, поддерживающие работу методов искусственного интеллекта, называют интеллектуальными СППР (ИСППР). Четкого определения СППР не существует, однако, имеется некоторый набор характеристик, предложенный Турбаном (Turban, 1995) [14], для современных СППР, которым система должна соответствовать:

- СППР для работы использует данные и модели - СППР предназначается для помощи в принятии решений слабоструктурированных, неструктурированных или нетривиальных задач - СППР служит поддержкой для аналитика (менеджера, консультанта) в принятии решений, а не заменяет его - Основной целью СППР является увеличение показателей эффективности решений.

Рис 1. Обобщенная архитектура системы поддержки принятия решений

Базы данных (БД). Databases (DB)

На текущий момент все основные идеи информации, информационных технологий и данных базируются на концепции баз данных. Основой данных информационных технологий являются данные, которые организованы в базах данных. Необходимо иметь возможность сообразно отображать данные, а также с помощью данных отображать изменения реального мира во времени и воздавать информационные потребности пользователей [3]. Данными называют описание восприятия реального мира.

Концепция Баз Данных (БД)

Основной характеристикой систем управления баз данных (СУБД) является наличие процедур для ввода, хранения и обработки данных, а также описания их структуры. Для работы СППР с данными, анализа данных и поиска решений необходимо накопление и хранение массивных объемов информации (данных). В настоящий момент наиболее распространен "реляционный" подход к построению БД, также его называют ER-моделированием. Кодд (1970) сформулировал 12 правил для реляционной БД:

- Физическая целостность - сохранность данных на носителях, корректность формата хранения; - Логическая целостность - актуальность и непротиворечивость данных.

Транзакцией называют последовательность операций над БД, которые рассматриваются СУБД как единое целое. Развитые методы управления транзакциями в СУБД делают их основным средством для построения OLTP-систем (Online Transaction Processing Systems), которые предназначены для оперативной обработки транзакций. Однако, для анализа данных эффективность использования OLTP-систем мала. Это вызвано тем, что характеристики OLTP-систем не удовлетворяют требованиям к системе анализа данных. Так, например, OLTP-системы могут хранить только детализированные данные, но не обобщенные; допускаются выбросы, незаполненные строки, ошибки в данных; требуется обеспечение максимальной нормализации; доступ к данным осуществляется по заранее составленным запросам и др. Основной недостаток реляционной БД заключается в отсутствии возможности обработки информации, которая не может быть представлена в табличном формате. В подобных случаях используют объектно-ориентированные модели

Концепция Хранилищ Данных (ХД)

Концепция ХД заключает в себе возможности OLTP-систем и систем анализа. ХД данных представляет собой набор данных, который является неизменным, интегрированным и поддерживающим хронологию [1]. В ХД возможно лишь добавление данных, а не редактирование или удаление уже хранящихся данных. Основные свойства ХД:

- Предметная ориентация. Одно из фундаментальных различий между ХД и Оперативными Источниками Данных (ОИД). Данные в ХД могут описывать одну и ту же предметную область с разных точек зрения. Также в ХД хранятся только необходимые для анализа данные. - Интеграция. В ХД данные из разных ОИД приводятся к единому формату. - Поддержка хронологии. Данные, которые хранятся в ХД, соответствуют последовательным интервалам времени. - Неизменяемость. Для анализа требуются данные за максимально большой период времени. Данные в ХД после загрузки, как правило, только читаются и добавляются.

На концепции ХД основаны методы реализации таких подсистем анализа, как OLAP-системы или Data Mining системы. ETL-процесс является процессом, который производит обработку, очистку и предварительную подготовку данных для их последующей записи в ХД.

Для реализации в СППР концепции ХД все данные из различных ОИД копируются в единое ХД. При копировании данных из ОИД в ХД на стадии ETL-процессов проводится приведение данных к единому формату и структуре

Рис 2. Структура СППР с физическими ХД

Подобная система является эффективной с точки зрения быстродействия. Однако, такой метод вызывает избыточность информации, так как данные хранятся как в ОИД, так и в ХД.

Для исключения избыточности информации используется виртуальное ХД, которое не хранит данные, а лишь ссылается на ОИД. Но с использованием виртуального ХД значительно снижается скорость быстродействия. Также, в случае виртуального ХД, для успешного функционирования такого подхода, необходим постоянный доступ всех ОИД. Перерывы в работе любого из ОИД могут привести к невыполнению аналитического запроса. Основным недостатком виртуального хранилища данных является практическая невозможность получения данных из ОИД за долгий период. Таким образом, организация виртуального ХД является уместной при работе только с текущими детализированными данными, или при необходимости минимизации объема занимаемой памяти.

Процесс организации физического ХД является довольно трудоемким:

- Данные необходимо интегрировать из неоднородных источников. Основной целью ХД является агрегирование и аккумуляция данных из разнородных ОИД. - Большие объемы информации необходимо эффективно хранить и обрабатывать. ХД обладает свойством неизменности имеющийся информации и добавлением новой, что подразумевает накопление информации. Постоянно растущее количество информации приводит к вынужденному увеличению объемов дискового пространства (памяти). Денормализация данных, которая необходима для выполнения аналитических запросов, приводит к нелинейному росту объемов занимаемой памяти. - Метаданные должны быть многоуровневыми. Наличие развитых метаданных и средств их визуализации для пользователей является одним из наиболее важных условий успешной организации и реализации ХД. Метаданные необходимы для понимания структуры и форматов информации - Необходима повышенная безопасность данных. В ХД могут храниться конфиденциальные данные. По этой причине задача разграничения прав доступа пользователей к информации в ХД является важной.

Альтернативой ХД является Витрина Данных (ВД). ВД представляет собой упрощенный вариант ХД, где содержатся только тематически объединенные данные. ВД можно реализовать автономно, а можно и вместе с ХД. Второй тип реализации ВД в последнее время становится наиболее популярным среди компаний. При таком подходе ХД становится единственным источником интегрированных данных, а ВД являются подмножествами данных из ХД. Конечные пользователи могут использовать как исключительно ВД для анализа, так и ХД, если необходимых данных нет в ВД.

Рис 3. Структура СППР с ХД и ВД

Основным недостатком такого подхода является большая избыточность информации, так как данные хранятся сразу в ОИД, ХД и ВД.

OLAP-системы (Online Analytical Processing Systems)

Реляционная модель БД представляет собой плоскую модель данных, отображающуюся в табличной форме, тогда как OLAP-кубы представляют собой многомерные модели данных, что в определенных случаях удобнее для аналитика. OLAP является технологией оперативной аналитической обработки данных. Целью OLAP-анализа является проверка возникающих гипотез [1]. Кодд (1993) описал основные концепции OLAP и определил требования, которым OLAP должен отвечать:

1. Многомерность. OLAP-система на концептуальном уровне должна представлять данные в виде многомерной модели 2. Прозрачность. OLAP-система должна скрывать от пользователя действительную реализацию многомерной модели, метод ее организации, средства обработки, средства хранения и источники информации. 3. Доступность. OLAP-система должна предоставлять пользователю единую, целостную и согласованную модель данных, обеспечивать доступ к данным независимо от места их хранения 4. Постоянная производительность при разработке отчетов. Производительность OLAP-систем не должна существенно снижаться при увеличении количества измерений для анализа. 5. Клиент-серверная архитектура. Пользователь должен иметь доступ к клиент-серверной среде. Имеется ввиду, что OLAP-система должна позволять строить общую концептуальную схему на основе консолидации и обобщения из различных физических и логических схем БД. 6. Равноправие измерений. В многомерной модели OLAP-системы все измерения должны быть равноправны. 7. Динамическое управление разреженными матрицами. OLAP-система должна обеспечивать оптимальную обработку разреженных матриц. 8. Поддержка многопользовательского режима. OLAP-система должна предоставлять возможность работать сразу нескольким пользователям совместно над аналитической моделью. 9. Неограниченные перекрестные операции. OLAP-система должна обеспечивать сохранение функциональных отношений между ячейками гиперкуба при выполнении любых операций среза, вращения, консолидации или детализации. Преобразования установленных отношений должны выполняться автоматически. 10. Интуитивная манипуляция данными. OLAP-система должна давать возможность работать с моделью без необходимости пользователю совершать множество манипуляций. 11. Гибкие возможности получения отчетов. OLAP-система должна поддерживать различные методы и способы визуализации данных. 12. Неограниченная размерность и число уровней агрегации.

Дополнительные правила Кодда

13. Пакетное извлечение против интерпретации. OLAP-система должна одинаково эффективно обеспечивать доступ к собственным и внешним данным. 14. Поддержка всех моделей OLAP-анализа. OLAP-система должна поддерживать категориальную, толковальную, умозрительную и стереотипную модель анализа данных. 15. Обработка ненормализованных данных. Должна быть возможность интеграции OLAP-системы с ненормализованными источниками данных. 16. Сохранение результатов OLAP: хранение отдельно от исходных данных. OLAP-система, которая работает в режиме чтения и записи, должна сохранять результаты работы отдельно, не изменяя исходные данные. 17. Исключение отсутствующих значений. OLAP-система должна отбрасывать все отсутствующие значения. 18. Обработка отсутствующих значений. OLAP-система должна игнорировать все отсутствующие значения независимо от их источника.

Выделяют три основных способа организации OLAP:

- Многомерный OLAP (MOLAP), использует многомерные БД для реализации многомерной модели. Данные хранятся в виде упорядоченных многомерных массивов. Подобные массивы делятся на гиперкубы и поликубы. O Гиперкуб. Все хранимые ячейки имеют одну и ту же мерность O Поликуб. Каждая ячейка имеет свой собственный набор измерений. При этом возникает большая сложность обработки

Основным преимуществом использования MOLAP являются быстродействие и оперативность системы. Однако, из-за денормализации данных и их предварительной агрегации объем данных относительно исходной БД возрастает от 2,5 до 100 раз. Дополнительным недостатком MOLAP-системы является ее чувствительность к изменениям. Добавление нового измерения приводит к изменению структуры всей многомерной БД.

Использовать MOLAP уместно в случаях, когда объем исходных данных не более нескольких гигабайт, структура БД стабильна, а быстродействие системы является наиболее важным параметром

- Реляционный OLAP (ROLAP), использует реляционные БД для организации модели. Наиболее популярными схемами реляционных БД для построения ROLAP-модели являются схемы "Звезда" и "Снежинка". Для схемы "Звезда" основными составляющими являются денормализованная таблица фактов и множество таблиц измерений. Первичным ключом в таблице фактов, как правило, является составной ключ, который объединяет первичные ключи таблиц измерений. Каждая таблица измерений находится в отношении "один ко многим" (1 to n) с таблицей фактов. Схема "Снежинка" используется при наличии сложных задач, связанных с иерархическими измерениями.

Основными достоинствами ROLAP-систем являются: удобство реализации, гибкость модели реляционной БД, высокий уровень защиты данных. При этом, производительность ROLAP меньше чем MOLAP. Но при хорошей реализации и настройке схемы "Звезда", производительность становится сопоставимой с MOLAP

- Гибридный OLAP (HOLAP), использует многомерные и реляционные БД для реализации многомерной модели. Другими словами, HOLAP системы объединяют технологии ROLAP и MOLAP для повышения производительности и сохранения основных преимуществ ROLAP +

Data Mining системы (системы интеллектуального анализа данных).

Data Mining имеет характеристику по исследованиям и обнаружениям ЭВМ знаний [13]. Существуют определенные требования к полученным с помощью Data Mining знаниям:

- Знания должны быть новыми, ранее неизвестными. Естественное требование к характеристике получаемых знаний, так как поиск уже известной информации не несет никакой ценности - Знания должны быть нетривиальными. Полученные знания должны быть неочевидными, скрытыми в данных, должны отражать закономерности в данных. - Знания должны быть практически полезны. Полученные знания должны быть применимы и приносить определенную выгоду от использования. - Знания должны быть доступны для понимания человеку. Полученные знания должны быть логически объяснены и представлены в понятном для пользователя виде.

По назначению задачи Data Mining делятся на описывающие и предсказательные. Первые, такие как кластеризация и поиск ассоциативных правил, улучшают понимание анализируемых данных, выдавая в итоге прозрачные для восприятия аналитиком результаты. Вторые, такие как регрессия и классификация, помогают спрогнозировать некоторые данные и показатели. Также алгоритмы Data Mining разделяют на "обучающиеся с учителем" и "обучающиеся без учителя".

- Классификация и регрессия. Классификация применяется в случае, если требуется осуществить разбиение множества объектов на классы. С точки зрения Data Mining, задачу классификации рассматривают как задачу определения одного дискретного объекта на основании значений других параметров. Если значениями зависимой и независимой переменных являются действительные числа, то такая задача относится к задаче регрессии. Задачи классификации и регрессии разбиваются на два этапа: O выделение обучающей выборки, в которую входят объекты с известными значениями как независимых, так и зависимой переменной; O применение построенной модели для анализа зависимой переменной.

Стоит отметить, что для корректной работы методов классификации и регрессии необходимо провести качественную предварительную обработку данных.

- Задача поиска ассоциативных правил. Главная цель данной задачи заключается в выявлении часто встречаемых наборов объектов в большой выборке. Метод поиска ассоциативных правил является частным случаем метода классификации. Секвенциальным анализом называется разновидность задачи поиска ассоциативных правил. Смысловая ценность секвенциального анализа заключается в предсказании с некоторой долей вероятности появления события в будущем, то есть - предсказательный анализ. - Задача кластеризации. Задача кластеризации заключается в разделении некоторых множеств объектов на кластеры, то есть группы схожих объектов. Кластерный анализ хорошо подходит для выявления портрета потребителя, сегментации клиентов, поведенческого анализа. Как правило, задача кластеризации помогает "объяснить" данные. Часто используется на первых этапах более сложного анализа, когда у аналитика недостаточно знаний, связанных с данными. В качестве коечного результата решения задачи кластеризации принимается выделение групп наиболее близких и похожих между собой объектов (кластеров). - Нечеткая логика. При работе с методами нечеткой логики могут возникать трудности, связанные с неопределенностью, недостоверностью, неполнотой и неизвестностью информации. Есть два типа неопределенности информации: физическая и лингвистическая. Для первого случая подходят методы классической теории множеств и теории вероятности. Для второго случая - лингвистической неопределенности - используются методы искусственного интеллекта, которые постоянно дорабатываются и расширяются.

В отличии от математических методов, нечеткая логика применяется в основном в задачах управления. Основоположник методов нечеткой логики - Л. Заде (1965), предложил лингвистическую модель, которая использует лингвистические слова, отражающие качество, а не математические выражения. При этом, по сравнению с математическими моделями, точность лингвистической модели меньше, но создание качественной модели, которая является намного более устойчивой, чем математическая - возможно. В методах и алгоритмах нечеткой логики наблюдается сравнительное сходство со здравым логическим мышлением человека.

- Генетические алгоритмы. Методы генетических алгоритмов (ГА) относятся к универсальным методам оптимизации. Предназначаются для решения множества различных, задач, например, комбинаторных. По своей сути метод ГА не всегда позволяет добиваться поставленных целей и задач исследования. Однако, он очень эффективен при интеграции с другими методами. Например, методом нейронных сетей или методом нечеткой логики. - Нейронные сети. Нейронные сети представляют собой класс моделей, методы которых основаны на биологической аналогии с человеческим мозгом. После прохождения обучающего этапа на предназначенных для этого данных, модель может использоваться для решения различных задач анализа данных. Однако, простого обучения модели недостаточно - за аналитиком остается задача выбора архитектуры модели, числа слоев, количества нейронов и прочей настройки модели для увеличения ее эффективности. Задачей нейронных сетей, как правило, является предсказание событий или значений объектов. Проблема нейронных сетей заключается в том, что аналитик не может наблюдать ничего от момента загрузки данных в модель до момента получения итогового результата, на который сильно влияет изначальная настройка модели. Важным является то, что не существует однозначных алгоритмов предварительной настройки модели для максимизации качества анализа.

Теоретические предпосылки исследования

Похожие статьи