Модель и методы исследования, Данные исследования - Опыт выявления плагиата при работе с графической информацией
Таким образом, от общей проблемы математического анализа изображений мы перешли к проблеме проверки на плагиат графической информации. Для этого нами была поставлена задача попарного сопоставления изображений. В процессе выборки мы стремились для каждой пары выбранных изображений выделить некое формальное обоснование (критерии), позволяющее признать пару подходящей для исследования.
Для второй части исследования (распознавание категорий лиц) использовалась методика числового сопоставления выборок данных и использование статистических функций для подтверждения полученной нами информации.
Данные исследования
Для проведения исследования были отобраны ресурсы, содержащие достаточное количество данных для данной предметной области. К ресурсам был выдвинут ряд требований:
- 1. Соответствие выбранной области (концентрация на тематике плагиаторства и "обводок") 2. Информативность (содержательные, полные посты) 3. Конструктивность ("не предвзятые" записи, преследующие цель восстановить справедливость, а не оклеветать человека) 4. Постоянная активность ресурса (наличие постоянных обновлений в течении долгого времени). Наличие необходимого контингента.
Поиск источников позволил нам выделить базовые страницы, которые являются источниками для осуществления выборки по заданным критериям - сообщества в социальных сетях [4, 5, 6] и отдельные сайты [7,8].
В свою очередь, для данных были выбраны следующие критерии, которым они должны соответствовать:
- 1. Достоверность (т. е. доказательство плагиата обязательно - им является пара изображений "оригинал-плагиат"). Данный критерий обязателен на этапе выборки данных, но в искомую таблицу учета данных не вносится по ненадобности. 2. Уникальность (информация об одном и том же человеке не должна дублироваться, несмотря на то) 3. Сопоставимость (представление данных в одинаковых форматах) 4. Полнота информации об авторе (примерный возраст, пол, творческий "стаж") 5. Год публикации на ресурсах - 2013 или 2015.
Пример одной такой пары, удовлетворяющей заданным критериям представлен на рис.1 и рис 2.
Рис.1 (предположительно оригинал. Название: "Silent Breeze" [9]);
Рис.2 (предположительно плагиат). 2013 год. Информация об авторе плагиата: девушка, возраст 16 лет, стаж ~полгода [9-10]
Ход исследования на основе описанной модели
Для наглядного исследования проблемы по заданной модели, мы выдвинули следующую гипотезу:
- - А, неформальное определение: Средний возраст плагиаторов в 2015 по сравнению с 2013 годом уменьшился, и в плагиате среди молодых художников чаще заметны девушки. - В, формальное определение: Если сопоставить выборки пар "оригинал-плагиат" за 2013 и за 2015 год, рассматривая в качестве критерия также возраст автора, то можно выявить следующую тенденцию: количество плагиаторов среди молодых художниц возросло, и оно больше, чем количество плагиаторов-парней.
Решающий критерий для принятия гипотезы - количественное сопоставление данных, найденных в выбранных источниках, и подтверждение их статистическими формулами. Основная гипотеза будет принята, если данные будут удовлетворять критерию: количество плагиата за 2015 год (среди авторов до 20 лет) будет выше, чем за 2013. Альтернативная гипотеза предполагает обратное - количество плагиата осталось тем же или даже уменьшилось.
Для подтверждения или же опровержения гипотезы мы проводили эксперимент в соответствии с выдвинутыми критериями: для источников данных, для самих данных, для принятия основной/альтернативной гипотезы.
В своем исследовании мы рассмотрели 2 глобальных интервала: 1.01.2013-31.12.2013 и 1.01.2015-01.12.2015 (т. е. в качестве интервала выступает 1 год). Для каждого интервала рассматривается подборка из 36 записей. Выделено 2 подынтервала для каждого интервала: 1.01.2013-31.05.2013 и 1.06.2013-31.12.2013, 1.01.2015-31.05.2015 и 1.06.2015-31.12.2015.
Визуализация имеющихся наборов данных:
Рис.3 Диаграмма, отображающая количественное соотношение плагиаторов младше 20 лет к их общему числу.
Рис.4 Диаграмма, отображающая количественное соотношение девушек к общему числу "заимствующих" в выборках по подынтервалам.
Обработанные и подсчитанные данные были внесены в таблицы. Затем производилась работа с формулами, отображающими статистические зависимости. Для работы с гипотезой использовались следующие:
- - Функция ХИ 2 тест на независимость, которая возвращает значение статистики для распределения хи-квадрат (ч2) и соответствующее число степеней свободы. Критерий ч2 можно использовать для определения того, подтверждается ли гипотеза экспериментом. - F-тест - двусторонняя вероятность того, что разница между дисперсиями массивов несущественна. - Коэффициент корреляции Пирсона.
Ниже приведена финальная таблица с обработанными данными и значениями, полученные в результате вычисления заявленных выше формул.
Плагиат цифровой изображение статистический
Таблица 1. Результаты выборок по подинтервалам и вычисление статистических формул.
Результаты исследования показывают, что доля девушек среди общего числа плагиаторов возросла (выборка 1). Также по результатам исследования видно, что количество молодых художников - до 20 лет - в 2015 году возросло (выборка 2). Используя значение ч2 можно предположить, что гипотеза доказана.
Похожие статьи
-
Аннотация, Обозначение проблемы - Опыт выявления плагиата при работе с графической информацией
Цель данной работы - создать модель с заложенным в нее алгоритмом, который должен решать некий класс задач, связанных с работой по определению плагиата...
-
Онлайн исследования в социологии: новые методы анализа данных - Распространение новостной информации
На сегодняшний день анализ социальных сетей и медиа, Интернет-сообществ, пользователей в целом используется в основном в маркетинге. Компания может...
-
В среде электронного ресурса ИИС "MD_SLAGMELT" (Рис. 6) для доступа к компоненту "моделирование" необходима учетная запись (пара логин/пароль) (Рис.7)....
-
Предложенный подход к решению задач исследования Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к...
-
Результаты проведенных экспериментов содержатся во внутреннем серверном файловом хранилище (Рис. 2). Представляют собой документы формата "*.DAT". В них...
-
По результатам данного исследования необходимо выявить недостатки и ограничения существующих технологий интеграции. Для проведения исследования...
-
Графическое отображение нелокальной нейронной сети в системе "Эйдос" Математический метод СК-анализа в свете идей интервальной бутстрепной робастной...
-
Актуальность исследования. Компьютерный эксперимент - это исследование математической модели объекта изучения на ЭВМ, состоящее в том, что, по известным...
-
Система мониторинга социальных сетей предоставляет исследователю возможность собрать интересующие его упоминания в социальных сетях по какой-либо...
-
Для того, чтобы разработать оптимальный метод интеграции сторонних систем в существующую ИТ-инфраструктуру систем компании, требуется точно поставить...
-
Построение аналитической модели АОУ затруднено из-за отсутствия или недостатка априорной информации об объекте управления, а также из-за ограниченности и...
-
Рисунок 10. Архитектура программы В структуре программы обработки сложноструктурированных данных для научного эксперимента в ИИС "Шлаковые расплавы"...
-
SimpleXML. В PHP версии 5.0 и выше появилось расширение для работы с xml структурой. Библитека SimpleXML содержит большое количество методов для работы с...
-
В ходе данного исследования была реализована "программа обработки сложноструктурированных данных для научного эксперимента в ИИС "MD_SLAGMELT"",...
-
Функциональные требования: - Поиск и обработка информации в текстовых файлах при появлении файлов в соответствующей директории по запросу администратора...
-
В классическом анализе Шеннона идет речь лишь о передаче символов по одному информационному каналу от одного источника к одному приемнику. Его интересует...
-
Под термином графика обычно понимается визуальное (то есть воспринимаемое зрением) представление каких-либо реальных или воображаемых объектов. Графика...
-
Рассмотрим иерархическую структуру информации на примере использования психологического теста для оценки психологических качеств сотрудников и влияния...
-
В данном пункте представлено описание подключаемых к общей архитектуре ИС компании систем. Описание систем является справочной информацией для...
-
Описание входной и выходной информации "Учет продаж футбольной атрибутики и спортивных товаров". Входная информация задачи: 1. Условно постоянная...
-
Выводы - Системная теория информации и семантическая информационная модель
Интервальные оценки сводят анализ чисел к анализу фактов и позволяют обрабатывать количественные величины как нечисловые данные. Это ограничивает...
-
Сортировка данных Так как при сортировке данные таблицы будут изменены, то создала новый лист "Сортировка" и в нем вставила копию таблицы 1. Для этого...
-
Пусть в сборку входит n монтажников, Тогда - множество монтажников, участвующих в одном этапе - рабочие, участвующие в выполнении одной операций -...
-
Рассмотрим два программных продукта наиболее схожих по функциям и назначению с программным обеспечением "Программа обработки сложноструктурированных...
-
Алгоритм работы. В результате работы АИС генерируются три xml документа - два со структурой сравниваемых баз данных и один с результатами сравнения. В...
-
Разработка концептуальной модели базы данных При проектировании программ выясняются запросы и пожелания клиента и определяется возможный подход к решению...
-
Для написания АИС использовались следующие языки программирования, программные средства и библиотеки: - Язык программирования PHP 5.4; -...
-
В связи с увеличением числа сотрудников, работающих в компании, а также с расширением рабочего проекта, возникла проблема, связанная с версионностью...
-
Метод представления знаний при проектировании модели - Искусственный интеллект
Предлагаемая модель ИИ основывается на когнитивных картах - некотором базовом знании о мире. Ключевые идеи, положенные в основу этой концепции, сходны с...
-
Актуальность Сегодня всемирная популярность социальных информационных сетей продолжает набирать обороты, все большее пользователей не может отказать себе...
-
В ходе разработки программы было использовано программное обеспечение Microsoft® Windows® "Подключение к удаленному рабочему столу" для извлечения...
-
4.1. Работы по аттестации ИСПДн класса К3 Заказчика должны носить комплексный характер, охватывая все элементы системы. 4.2. Работа должна быть выполнена...
-
Должны быть выполнены следующие работы: № п/п Наименование работ Результат работ (отчетная документация) 1 Установка и настройка Microsoft Windows XP...
-
При запуске программы с входными параметрами {"-makexls" "filename. xls" "температурная_точка" "отклонение" "элемент"} происходит извлечение результатов...
-
Для администратора проекта ИИС "MD_SLAGMELT" разработано средство логирования. После завершения выполнения программы, в случае возникновения...
-
ИИС "Шлаковые расплавы" позволяет вести моделирование КЭ в нескольких "режимах", с полным набором получаемых свойств. 1. Моделирование комплекса свойств...
-
6.1. "Аттестат соответствия" оформляется и выдается после утверждения заключения по результатам проведенных аттестационных испытаний. 6.2. "Аттестат...
-
ЗАКЛЮЧЕНИЕ - Распространение новостной информации
Проведенное исследование позволило составить представление об особенностях распространения новостной информации в социальной сети Twitter. Была проведена...
-
Sysomos MAP (Media Analysis Platform) - Распространение новостной информации
- Web-аналитика - предоставление количественной информации об особенностях различных сайтов, исходя из активности их пользователей - Сбор контента -...
-
Моделирование является основным методом анализа объекта защиты, выявления возможных угроз и построения соответствующей системы защиты. Моделирование...
Модель и методы исследования, Данные исследования - Опыт выявления плагиата при работе с графической информацией