Алгоритм сравнения двух заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два списка слов из двух заголовков. Первым подается тот список, в котором меньше слов. Описание алгоритма приведено ниже.

Bool CompareHeaders(List<string> lstMin, List<string> lstMax)

{

Int countrelevant=0;

Foreach (string str1 in lstMin)

{

Foreach (string str2 in lstMax)

{

If (CompareWords(str1, str2))

{

Countrelevant++;

Break;

}

If (lstMin. Count > 0)

If ((countrelevant / lstMin. Count)*100 >= percentage_of_relevancyHeaders) return true;

Return false;

}

Bool CompareWords(string str1, string str2)

{

Str1 = Stem(str1);

Str2 = Stem(str2);

If (str1 == str2) return true;

Else return false;

}

В псевдокоде, описанном выше, присутствуют две функции: CompareHeaders и CompareWords. В функции CompareРeaders происходит непосредственно сравнение двух заголовков на соответствие друг другу. Для реализации этой функции необходимо было выделить функцию сравнения двух слов на релевантность. В функции CompareWords используется стемминг, который вызывается посредством функции Stem.

На вход алгоритму поступают два набора слов ( один из первого заголовка, второй из второго). Для каждого слова из заголовка, в котором количество слов меньше, проводится сравнение с каждым словом, где количество слов больше. Под сравнение слов понимается сравнение основ слов, который реализуется посредством стемминга. Если слово из набора слов, в котором меньше слов, находит равное себе во втором наборе слов, то переменная-счетчик countrelevant увеличивается на единицу и происходит переход к следующему слову из заголовка, в котором меньше слов. В итоге, если countrelevant разделить на количество слов в наборе, в котором меньше слов, и это значение будет больше или равно параметру - необходимое количество процентов схожести двух заголовков для признания этих заголовков релевантными, то это означает, что заголовки имеют схожий смысл.

Если за n считать количество слов в первом заголовке, за m количество слов во втором, то сложность алгоритма будет стремится к выражению n*m.

Рассмотрим пример сравнения двух заголовков. Есть два заголовка : "Результаты экзамена" и "Итоговый экзамен по программированию". Эти два заголовка будут разделены на следующие наборы слов : (Результаты, экзамена) и (Итоговый, экзамен, программированию). Предлоги и союзы не входят в набор слов так как не несут на себе смысловой нагрузки.

Красная линия означает, что данные слова не соответствуют друг другу, а зеленая если соответствуют. В итоге получается, что из двух слов первого набора, только одно нашло себе соответствующее слово во втором наборе. Теперь необходимо найти процент соответствия заголовков. Для этого нужно разделить количество слов, из набора, в котором меньше слов, которые нашли себе соответствие в другом наборе на количество слов в этом наборе. То есть, в данном случае это будет Ѕ =50%. Если в параметрах соответствия заголовков, стоит значение 50 или менее, то приложение вернет ответ true на вопрос: " Соответствуют ли эти заголовки друг другу?"

Похожие статьи

Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было...
Создание модели таблицы в программе - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Для сравнения двух таблиц на соответствие необходимо выделить некоторые характеристики, с помощью которых можно описать таблицу. В данной работе такими...
DLL библиотека для парсинга интернет-страниц, Проблема сравнения двух основ слов на равенство - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Парсинг интернет страниц на сегодняшний день очень широко распространенная задача. Примером может являться ситуация, когда пользователю необходимо...
Аналитический обзор методов и средств для разработки необходимых алгоритмов и приложения в целом, Основные определения - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Существует множество средств решения задачи поиска, однако эта задача очень широка и решается в абсолютно разных условиях с различными требованиями к...
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть...
Разработка алгоритма работы предлагаемого дискретного анализатора частотного спектра сигнала для защиты информации в системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
Описание принципа действия и общий алгоритм работы, Разработка функциональных схем и блок-схем алгоритмов работы отдельных блоков - Микроконтроллерный измеритель частоты оборотов

Измерение скорости вращения вала основано на подсчете количества импульсов пришедших с датчика за определенный промежуток времени. В нашем случае за 1...
ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ ВНЕДРЕНИЯ СИСТЕМЫ ЭЛЕКТРОПРИВОДА, Выбор объекта для сравнения - Электропривод и автоматизация главного привода специального вальцето-карного станкамодели IK 825 Ф2

Выбор объекта для сравнения В дипломном проекте разрабатывалась новая система электропривода на базе комплектного тиристорного преобразователя серии...
Разработка новой системы автоматизации, функциональная схема автоматизации сортирующего гидроразбивателя - Производство бумаги

Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
Схема решения проектно-конструкторских задач с помощью средств вычислительной техники - Выбор варианта автоматизации процесса конструирования

Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
Разработка системы защиты передаваемой информации в канале связи с использованием анализатора спектра сигнала, Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала - Разработка анализатора спектра для комплексной защиты объектов информатизации

Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
Защита информации в системе связи с использованием метода неполного (сокращенного) вычисления гармонических коэффициентов Фурье - Разработка анализатора спектра для комплексной защиты объектов информатизации

При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
Меры по охране окружающей среды - Разработка конструкции и элементов технологии изготовления измельчителя древесных отходов

Для снижения вредного воздействия на окружающую среду при проектировании и эксплуатации измельчителя, выполняются природно-охранные мероприятия....
ХАРАКТЕРИСТИКА И АНАЛИЗ ЭКОНОМИЧЕСКОЙ СИСТЕМЫ ПК "ШЕКСНИНСКИЙ МАСЛОЗАВОД", Общая информация - Разработка технологической инновации в производстве творога

Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
Сложности творческого процесса - Современные методы поиска и разработки новых идей

Психологическая инерция. В ТРИЗ есть оператор РВС (размер, время, стоимость), позволяющий понизить психологическую инерцию мышления путем мысленного...
Современные методы поиска и разработки идей, Методы поиска и разработки новых идей - Современные методы поиска и разработки новых идей

Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
Средства измерений и контроля - Разработка системы поверки манометров

Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
Патентный поиск, Общие сведения, Регламент поиска, Используемые источники информации - Проект кузова крытого вагона из экструдированного алюминия

Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
Средства для измерения pH жидкостей (pH-метры), Выбор конкретного средства измерения pH - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
Классификация средств измерения давления - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
Конструкторско-технологическая часть, Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации, Анализ параметров генерируемых тактовых импульсов - Разработка анализатора спектра для комплексной защиты объектов информатизации

Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
Разработка структурной схемы дискретного анализатора частотного спектра сигнала для защиты информации в многоканальной системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
РАЗРАБОТКА И ОТЛАДКА РАБОЧЕЙ ПРОГРАММЫ МКУ, Блок - схема алгоритма и его описание, Структура программы, Листинг программы, Описание модуля программы - Микроконтроллерный измеритель частоты оборотов

Блок - схема алгоритма и его описание Схема алгоритма работы микроконтроллера приведена на рисунке 5.1. Рис. 5.1 - Схема алгоритма работы...
Разработка алгоритма работы системы - Модернизация системы регулирования температурных параметров на агрегате электролитического лужения АЭЛ-1200/III "АрселорМиттал Темиртау"

Силовое напряжение 380 В общецеховой сети подводится к клеммам. Х1-1,2,3 шкафа PLC и далее к вводному автоматическому выключателю Q1 расположенному в...
Зона Бриллюэна и сравнение 3C и 2H политипов карбида кремния - Изоморфизм и варизонные структуры карбида кремния

С момента начала работы группы структуры НИЦ [29, 30], уже стало ясно, что группа структуры различных политипами можно сравнить наилучшим путем изучения...
ИЗГОТОВЛЕНИЕ ПЕЧКИ - Разработка аппарата холодного копчения

Печка, детали которой приведены на рис. 2, -- производитель дыма для копчения. Рис. 2. Печка Учтите, что дым необходимо получить в результате...
Теоретические основы разрабатываемой темы, Экономическая сущность, функции, значения общественного питания - Разработка производственной программы ресторана "Rio-GRANDE"

Экономическая сущность, функции, значения общественного питания Как известно из истории экономической науки, усложнение содержания труда стало причиной...
Выбор и расчет первичных средств пожаротушения - Проект завода по производству преформ - заготовок для ПЭТ бутылок, изготавливаемых из полимера (полиэтилентерефталата)

Таблица 4.2 Расчет необходимого количества ручных огнетушителей Категория Помещений По пожарной опасности Предел Защища-емой Площади, м2 Класс пожара...
Изготовление колб - Разработка технологического процесса изготовления ламп накаливания общего назначения БК-220-75

Основные рабочие устройства автомата размещены на трех конвейерах: стеклоформующем, дутьевых головок и конвейер форм. Конвейеры расположены друг над...
Разработка стенда управления, Устройство шаговых двигателей - Разработка стенда управления шаговым двигателем

Устройство шаговых двигателей Двигатели с переменным магнитным сопротивлением [стр. 4, 2] Шаговые двигатели с переменным сопротивлением имеют несколько...
Изготовление тарелок - Разработка технологического процесса изготовления ламп накаливания общего назначения БК-220-75

Тарелка - короткая стеклянная трубка с конусообразным расширением. Диаметр основания конической части устанавливают в зависимости от диаметра горловины...
Выбор вспомогательного оборудования - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

К разряду вспомогательного оборудования в аппаратной части АСУТП относят то оборудование, которое обеспечивает нормальную работу основного оборудования...
Экспериментальные исследования метода и алгоритмов оценки состояния оборудования, Алгоритм идентификации модели оценки технического состояния оборудованияна основе критерия максимума - Оптимизация стратегии технического обслуживания и ремонта

После разработки метода оценки состояния оборудования перейдем к описанию его алгоритмического обеспечения. Алгоритмическое обеспечение, разработанное...
Резонанс шагового двигателя - Разработка стенда управления шаговым двигателем

Шаговым двигателям свойственен нежелательный эффект, называемый резонансом. Эффект проявляется в виде внезапного падения момента на некоторых скоростях....
Характеристика горбуши - Разработка ассортимента и технологии блюд и изделий из рыбы

Горбуша - одна из популярных промышленных рыб, ее еще называют розовым лососем. Ценится продукт за довольно вкусное мясо и деликатесную икру. Горбуша,...
Способы управления шаговым двигателем - Разработка стенда управления шаговым двигателем

Волновая и фазовая коммутация фаз Первый способ обеспечивается попеременной коммутации фаз, при этом они не перекрываются, в один момент времени включена...
Технологическая схема сборки изделия - Разработка технологического процесса сборки масляного насоса

Технологическая схема сборки показывает, в какой последовательности необходимо присоединять и закреплять к друг другу элементы, из которых собирается...
ОБЩИЕ СВЕДЕНИЯ О НАДЕЖНОСТИ АВТОМАТИЧЕСКИХ СИСТЕМ - Надежность систем автоматизации

Для оценки поведения автоматической системы в эксплуата-ционных условиях используется понятие надежности системы. При эксплуатации автоматическая система...
Расчет времени заварки ламп - Разработка технологического процесса изготовления ламп накаливания общего назначения Б-127-40-1

Заварка ламп является основной сборочной операцией при изготовлении ламп. Она заключается в герметичном соединении собранной ножки с колбой. Процесс...
Изготовление колб - Разработка технологического процесса изготовления ламп накаливания общего назначения Б-127-40-1

Основные рабочие устройства автомата размещены на трех конвейерах: стеклоформующем, дутьевых головок и конвейер форм. Конвейеры расположены друг над...

Алгоритм сравнения двух заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Предыдущая | Следующая