Модель и методы исследования, Данные исследования - Опыт выявления плагиата при работе с графической информацией

Таким образом, от общей проблемы математического анализа изображений мы перешли к проблеме проверки на плагиат графической информации. Для этого нами была поставлена задача попарного сопоставления изображений. В процессе выборки мы стремились для каждой пары выбранных изображений выделить некое формальное обоснование (критерии), позволяющее признать пару подходящей для исследования.

Для второй части исследования (распознавание категорий лиц) использовалась методика числового сопоставления выборок данных и использование статистических функций для подтверждения полученной нами информации.

Данные исследования

Для проведения исследования были отобраны ресурсы, содержащие достаточное количество данных для данной предметной области. К ресурсам был выдвинут ряд требований:

    1. Соответствие выбранной области (концентрация на тематике плагиаторства и "обводок") 2. Информативность (содержательные, полные посты) 3. Конструктивность ("не предвзятые" записи, преследующие цель восстановить справедливость, а не оклеветать человека) 4. Постоянная активность ресурса (наличие постоянных обновлений в течении долгого времени). Наличие необходимого контингента.

Поиск источников позволил нам выделить базовые страницы, которые являются источниками для осуществления выборки по заданным критериям - сообщества в социальных сетях [4, 5, 6] и отдельные сайты [7,8].

В свою очередь, для данных были выбраны следующие критерии, которым они должны соответствовать:

    1. Достоверность (т. е. доказательство плагиата обязательно - им является пара изображений "оригинал-плагиат"). Данный критерий обязателен на этапе выборки данных, но в искомую таблицу учета данных не вносится по ненадобности. 2. Уникальность (информация об одном и том же человеке не должна дублироваться, несмотря на то) 3. Сопоставимость (представление данных в одинаковых форматах) 4. Полнота информации об авторе (примерный возраст, пол, творческий "стаж") 5. Год публикации на ресурсах - 2013 или 2015.

Пример одной такой пары, удовлетворяющей заданным критериям представлен на рис.1 и рис 2.

(предположительно оригинал. название

Рис.1 (предположительно оригинал. Название: "Silent Breeze" [9]);

(предположительно плагиат). 2013 год. информация об авторе плагиата

Рис.2 (предположительно плагиат). 2013 год. Информация об авторе плагиата: девушка, возраст 16 лет, стаж ~полгода [9-10]

Ход исследования на основе описанной модели

Для наглядного исследования проблемы по заданной модели, мы выдвинули следующую гипотезу:

    - А, неформальное определение: Средний возраст плагиаторов в 2015 по сравнению с 2013 годом уменьшился, и в плагиате среди молодых художников чаще заметны девушки. - В, формальное определение: Если сопоставить выборки пар "оригинал-плагиат" за 2013 и за 2015 год, рассматривая в качестве критерия также возраст автора, то можно выявить следующую тенденцию: количество плагиаторов среди молодых художниц возросло, и оно больше, чем количество плагиаторов-парней.

Решающий критерий для принятия гипотезы - количественное сопоставление данных, найденных в выбранных источниках, и подтверждение их статистическими формулами. Основная гипотеза будет принята, если данные будут удовлетворять критерию: количество плагиата за 2015 год (среди авторов до 20 лет) будет выше, чем за 2013. Альтернативная гипотеза предполагает обратное - количество плагиата осталось тем же или даже уменьшилось.

Для подтверждения или же опровержения гипотезы мы проводили эксперимент в соответствии с выдвинутыми критериями: для источников данных, для самих данных, для принятия основной/альтернативной гипотезы.

В своем исследовании мы рассмотрели 2 глобальных интервала: 1.01.2013-31.12.2013 и 1.01.2015-01.12.2015 (т. е. в качестве интервала выступает 1 год). Для каждого интервала рассматривается подборка из 36 записей. Выделено 2 подынтервала для каждого интервала: 1.01.2013-31.05.2013 и 1.06.2013-31.12.2013, 1.01.2015-31.05.2015 и 1.06.2015-31.12.2015.

Визуализация имеющихся наборов данных:

диаграмма, отображающая количественное соотношение плагиаторов младше 20 лет к их общему числу

Рис.3 Диаграмма, отображающая количественное соотношение плагиаторов младше 20 лет к их общему числу.

диаграмма, отображающая количественное соотношение девушек к общему числу

Рис.4 Диаграмма, отображающая количественное соотношение девушек к общему числу "заимствующих" в выборках по подынтервалам.

Обработанные и подсчитанные данные были внесены в таблицы. Затем производилась работа с формулами, отображающими статистические зависимости. Для работы с гипотезой использовались следующие:

    - Функция ХИ 2 тест на независимость, которая возвращает значение статистики для распределения хи-квадрат (ч2) и соответствующее число степеней свободы. Критерий ч2 можно использовать для определения того, подтверждается ли гипотеза экспериментом. - F-тест - двусторонняя вероятность того, что разница между дисперсиями массивов несущественна. - Коэффициент корреляции Пирсона.

Ниже приведена финальная таблица с обработанными данными и значениями, полученные в результате вычисления заявленных выше формул.

Плагиат цифровой изображение статистический

Таблица 1. Результаты выборок по подинтервалам и вычисление статистических формул.

Результаты исследования показывают, что доля девушек среди общего числа плагиаторов возросла (выборка 1). Также по результатам исследования видно, что количество молодых художников - до 20 лет - в 2015 году возросло (выборка 2). Используя значение ч2 можно предположить, что гипотеза доказана.

Похожие статьи




Модель и методы исследования, Данные исследования - Опыт выявления плагиата при работе с графической информацией

Предыдущая | Следующая