Представление предметной области, Понятие Data Mining - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Понятие Data Mining

Средства Data Mining включают в себя очень широкий класс различных технологий и инструментов. Средства Data Mining на рынке предлагаются как средства извлечения новых знаний из данных (discovery-driven data mining), так и слегка модифицированные статистические пакеты, предназначенные для проверки гипотез (verification-driven data mining).

Важное положение Data Mining -- нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания об отношениях. К обществу пришло понимание того, что сырые данные (raw data) содержат глубинный пласт знаний об отношениях, при грамотной "раскопке" которого могут быть обнаружены настоящие самородки.

В целом технологию Data Mining определяют как процесс обнаружения в данных:

- ранее неизвестных; - нетривиальных; - практически полезных; - доступных интерпретации знаний об отношениях атрибутов объектов, необходимых для организации деятельности и принятия решений.

Специалисты и раньше решали подобные задачи ("поиск закономерностей", "индуктивный вывод" и т. п.). Но только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, как было сказано, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивного анализа и извлечения новых знаний никому не нужны. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными широкому кругу пользователей, знакомых с данной предметной областью, а не только математикам-статистикам.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:

- ассоциация; - последовательность; - классификация; - кластеризация; - прогнозирование.

Ассоциация наблюдается в данных, когда несколько событий связаны друг с другом и происходят при этом одновременно. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Закономерность типа "последовательность" предполагает наличие в данных цепочки связанных друг с другом и распределенных во времени событий. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации производится разбиение множества объектов на классы по значениям атрибутов. Одним из наиболее эффективных способов такого разбиения является построение дерева решений, т. е. дерева классов, вершины которого сформированы путем оптимального выбора (по некоторому функциональному критерию) атрибутов последовательного разбиения и их пороговых значений без предварительных сведений о семантике предметной области. Эта классификация формальная и принципиально отличается от традиционной, в которой относительная важность атрибутов и сами классы уже определены специалистами предметной области, и следует только отнести наблюдаемый объект к одному из этих классов по обнаруженным признакам. Дерево решений превращает данные об атрибутном базисе в знания об отношениях между группами объектов.

Кластеризация отличается от классификации тем, что выделяемые группы объектов имеют близкие, но необязательно одинаковые значения атрибутов объектов. Близость свойств объектов в кластерах оценивают по специальным критериям, учитывающим степень совпадения векторов свойств объектов в кластере с вектором центра кластера. Современные средства кластеризации оперируют с числовыми или булевыми векторами признаков объектов. При помещении нового объекта в ближайший кластер изменяется вектор средних значений атрибутов кластера, и другой объект в периферийной области соседних кластеров может оказаться более похожим на центр соседнего кластера.

Это вызывает перемещение объекта из кластера в кластер. Поэтому кластер в отличие от класса является множеством с нечеткими границами. Путем неоднократных проходов по БД добиваются минимизации числа перемещений объектов, т. е. устойчивой кластеризации. Новый объект легко может быть отнесен к одному из устойчивых кластеров, т. е. данные об атрибутном базисе превращены в знания об отношениях.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Проблема состоит в построении математической модели рядов для адекватного прогноза.

Произведем более глубокое исследование понятия кластеризация.

Похожие статьи

Введение - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

В наше время все большее количество компаний, стремясь к повышению эффективности и прибыльности бизнеса пользуются цифровыми (автоматизированными)...
Анализ предметной области, Описание предметной области - Инфологическая модель базы данных: стройматериалы

Описание предметной области ООО ИСК "Волгастройинвест" является официальным представителем ряда отечественных и зарубежных фирм, предлагающих на...
Программная реализация системы регистрации речи диспетчерских переговоров, Общее описание программного обеспечения, реализующего разработанный алгоритм - Разработка системы регистрации новых пользователей

Общее описание программного обеспечения, реализующего разработанный алгоритм Основной идеей дипломного проекта, является реализация алгоритма...
Лабораторная работа № 2. Классы. Программирование линейных алгоритмов с использованием функций инициализации set() и вывода результатов print() - Технология разработки программного обеспечения систем управления

Цель Работы - изучить основные способы работы с пользовательским типом данных "класс", его объектами, методами и способы доступа к ним. - Теоретические...
Разработка алгоритма программы, Кодирование и тестирование программы, Интеграция программы в Actel Libero IDE - Методика обеспечения сбоеустойчивости программируемой логической интегральной схемы для ракетно-космического применения

Работа программы представлена на рисунке 2.3 Рис. 2.3 Кодирование и тестирование программы Программа кодировалась на языке Си++, используя библотеку Qt5x...
Теоретические основы баз данных, Основные термины теории баз данных - Разработка информационной системы "Магазин компьютерных товаров"

Основные термины теории баз данных - БД (База данных) - совокупность специальным образом организованных данных, хранимых в памяти вычислительной системы...
Разработка информационно-справочной системы "Аптека", Моделирование предметной области, Физическая реализация базы данных - Разработка информационно-справочной системы "Аптека"

Моделирование предметной области Этапом проектирования базы данных любого типа начинается с анализа предметной области, который заканчивается построением...
Исследование функций и целей организации, Постановка задач - База данных "Определение факультативов для студентов"

В данном курсовом проекте в качестве исследуемой организации рассматривается институт, который предоставляет выбор факультативов студентами. Институт...
Разработка программного обеспечения, Выбор средств реализации информационной системы - Автоматизация процесса работы руководства ООО "Сервис партнер"

Выбор средств реализации информационной системы Названные в параграфе 1.4. настоящей работы задачи могут быть решены тремя типами средств автоматизации:...
Реализация алгоритма соединения объектов линией - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

Для того, чтобы строить диаграммы в соответствии с рисунком 2.7, необходимо реализовать алгоритм соединения двух объектов линией. Для отображения линии...
Этапы разработки базы данных, Разработка концептуальной модели базы данных, Разработка логической модели базы данных - Высокоуровневые методы информатики и программирования

Разработка концептуальной модели базы данных При проектировании программ выясняются запросы и пожелания клиента и определяется возможный подход к решению...
Обзор технологий обработки Big Data, Современные технологии обработки Больших данных - Технологии больших данных: анализ и выбор решения для реализации проекта

Современные технологии обработки Больших данных Большой проект бюджетирование автоматизация С приходом новых технологий, инструментов и средств...
Преимущества автоматизации, Возможные недостатки автоматизации - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Преимущества, которые дает тестировщику автоматизация тестирования: - Исключен "человеческий фактор". Существует некоторая гарантия того, что не один...
Автоматизация тестирования - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Автоматизированное тестирование программного обеспечения - это процесс проверки программного обеспечения, который включает в себя такие шаги как запуск,...
ПРЕДСТАВЛЕНИЕ ДАННЫХ В ПАМЯТИ ПЕРСОНАЛЬНОГО КОМПЬЮТЕРА (ЧИСЛА, СИМВОЛЫ, ГРАФИКА, ЗВУК) - Программное обеспечение компьютера

Вся информация, которую обрабатывает компьютер, должна быть представлена двоичным кодом с помощью двух цифр -- 0 и 1. Эти два символа принято называть...
ER-диаграмма - Инженерия программного обеспечения. Регистрация пассажира на рейс авиакомпании

Широкое распространение реляционных СУБД и их использование в самых разнообразных приложениях показывает, что реляционная модель данных достаточна для...
Базы данных и системы управления базами данных, Общие понятия и определения баз данных - Модели серверов баз данных

Общие понятия и определения баз данных Данные содержат различные события или сущности. Для работы с данными были созданы различные информационные...
Лабораторная работа № 6. Программирование шаблона классов - Технология разработки программного обеспечения систем управления

Цель Работы - изучить приемы создания и использования шаблонов классов. - Теоретические сведения Достаточно часто встречаются классы, объекты которых...
Гражданский Кодекс Российской Федерации - Разработка алгоритма генерации для создания базы данных искусственных биометрических образов

Гражданский кодекс Российской Федерации в части четвертой регулирует вопросы охраны результатов интеллектуальной деятельности и средств индивидуализации....
Разработка структурной схемы проекта и структуры программного обеспечения, Проектирование базы данных - Разработка и тестирование автоматизированной системы контроля успеваемости студентов

При работе над проектом разрабатывались два основных компонента системы: база данных (далее - БД) и интерфейс клиентского приложения. Затем необходимо...
Описание предметной области, Создание информационно-логической модели - Разработка базы данных "Гостиничное хозяйство"

Областью применения базы данных является Гостиница. Задачей администратора гостиницы является отслеживание финансовой стороны работы гостиницы. Его...
Глава I. Анализ предметной области, 1.1 Анализ существующих программных агентов - Средства для создания программных агентов

1.1 Анализ существующих программных агентов Согласно классическому определению, программный агент -- это программа-посредник. Эти посредники...
Инфологическое моделирование - Банки и базы данных. Системы управления базами данных

Инфологическое проектирование является вторым этапом проектирования БД, который следует непосредственно после анализа предметной области. Эта стадия...
Даталогическое проектирование - Банки и базы данных. Системы управления базами данных

Даталогической моделью БД называется модель логического уровня, построенная в рамках конкретной СУБД, в среде которой проектируется БД. Описание...
Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке, Реализация клиентской части приложения - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке

Реализация клиентской части приложения На языке JavaScript, в соответствии с диаграммой классов, представленной в приложении Б, были разработаны объекты...
Разработка пользовательского интерфейса, Интерфейс, Реализация - Разработка интерфейса базы данных (на примере потребностей охранного предприятия ООО "Пересвет")

Интерфейс Пользовательский интерфейс программного обеспечения является неотъемлемой его частью. Именно через интерфейс конечный пользователь будет...
Области применения экспертных систем - Экспертные системы

Области применения систем, основанных на знаниях, могут быть сгруппированы в несколько основных классов: медицинская диагностика, контроль и управление,...
Парсер - Разработка программного средства, позволяющего оптимизировать SQL-скрипты

В приложении можно выделить 2 основных функциональных блока: парсер и оптимизатор. Данная глава посвящена первому из них. Задача парсера - разобрать...
Разработка объектов базы данных выбранной СУБД, Реализация функциональной архитектуры программного средства - Разработка и администрирование баз данных

В процессе разработки программного средства было создано 12 таблиц. Для их создания использовалось графическое средство SqlYong и кодирование на языке...
Результаты - Разработка автоматических тестов для тестирования новой функциональности программного обеспечения

Для того, чтобы вынести решение об оправданности или неоправданности внедрения автоматизированного тестирования вместо ручного, необходимо...
Преобразование полученных данных - Разработка программно-аппаратного комплекса для мониторинга рентгеновского симулятора SLS-9

После обмена данными с АЦП происходит преобразование считанных данных в одно целое число, характеризующее уровень сигнала на входе АЦП. Т. к. АЦП имеет...
Системный анализ предметной области проектируемой базы данных, 1.1 Характеристика предметной области - Программное обеспечение Центра занятости населения

1.1 Характеристика предметной области Программный обеспечение база данные Представим предметную область "Программное обеспечение ЦЗН" как взаимодействие...
Выбор предметной области и обзор реализаций методов машинного обучения с учителем в этой области - Исследование алгоритмов

В работе возникает необходимость выбора предметной области, в которой будет тестироваться каскадный классификатор. Главными вопросами на данном этапе...
Особенности параллельного порта - Разработка программно-аппаратного комплекса для мониторинга рентгеновского симулятора SLS-9

Основным достоинством интерфейса Centronics является его стандартность - он есть на каждом компьютере и на всех компьютерах работает одинакового (правда...
Процесс тестирования, Разработка тест-кейсов - Тестирование программного обеспечения

Тестирование представляет собой процесс проверки того, насколько программное обеспечение соответствует требованиям, заявленным заказчиком. Он...
Лабораторная работа №14. MDI - приложение. Работа с данными в архитектуре "Документ/представление" ("Document/view") - Технология разработки программного обеспечения систем управления

Цель Работы - использовать принципы архитектуры "Документ-Представление" для выборки и сохранения данных в файлах, а также взаимодействия элементов меню,...
Классификация видов тестирования - Тестирование программного обеспечения

При тестировании программного продукта применяется огромное количество различных видов тестов. Наиболее широкую и подробную классификацию предложил автор...
Лабораторная работа № 5. Наследование классов, механизм виртуальных функций - Технология разработки программного обеспечения систем управления

Цель Работы - изучить одну из базовых концепций ООП, наследование классов в С++, заключающуюся в построении цепочек классов, связанных иерархически,...
Для чего нужны Базы Данных - База данных склада обоев

В настоящее время в современном мире электронных технологий практически невозможно представить компанию, в которой не требуется обработка некоторого...
Программное обеспечение (ПО) АИС, Понятие и структура ПО - История создания и развития автоматизированных информационных систем

Математическое и программное обеспечение (МО, ПО)- совокупность математических методов, моделей, алгоритмов и программ для реализации целей и задач...

Представление предметной области, Понятие Data Mining - Разработка программного обеспечения для реализации и тестирования алгоритма нахождения частых множеств в транзакционных данных вертикального формата

Предыдущая | Следующая