Алгоритм сравнения двух заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два списка слов из двух заголовков. Первым подается тот список, в котором меньше слов. Описание алгоритма приведено ниже.
Bool CompareHeaders(List<string> lstMin, List<string> lstMax)
{
Int countrelevant=0;
Foreach (string str1 in lstMin)
{
Foreach (string str2 in lstMax)
{
If (CompareWords(str1, str2))
{
Countrelevant++;
Break;
}
}
}
If (lstMin. Count > 0)
If ((countrelevant / lstMin. Count)*100 >= percentage_of_relevancyHeaders) return true;
Return false;
}
Bool CompareWords(string str1, string str2)
{
Str1 = Stem(str1);
Str2 = Stem(str2);
If (str1 == str2) return true;
Else return false;
}
В псевдокоде, описанном выше, присутствуют две функции: CompareHeaders и CompareWords. В функции CompareРeaders происходит непосредственно сравнение двух заголовков на соответствие друг другу. Для реализации этой функции необходимо было выделить функцию сравнения двух слов на релевантность. В функции CompareWords используется стемминг, который вызывается посредством функции Stem.
На вход алгоритму поступают два набора слов ( один из первого заголовка, второй из второго). Для каждого слова из заголовка, в котором количество слов меньше, проводится сравнение с каждым словом, где количество слов больше. Под сравнение слов понимается сравнение основ слов, который реализуется посредством стемминга. Если слово из набора слов, в котором меньше слов, находит равное себе во втором наборе слов, то переменная-счетчик countrelevant увеличивается на единицу и происходит переход к следующему слову из заголовка, в котором меньше слов. В итоге, если countrelevant разделить на количество слов в наборе, в котором меньше слов, и это значение будет больше или равно параметру - необходимое количество процентов схожести двух заголовков для признания этих заголовков релевантными, то это означает, что заголовки имеют схожий смысл.
Если за n считать количество слов в первом заголовке, за m количество слов во втором, то сложность алгоритма будет стремится к выражению n*m.
Рассмотрим пример сравнения двух заголовков. Есть два заголовка : "Результаты экзамена" и "Итоговый экзамен по программированию". Эти два заголовка будут разделены на следующие наборы слов : (Результаты, экзамена) и (Итоговый, экзамен, программированию). Предлоги и союзы не входят в набор слов так как не несут на себе смысловой нагрузки.
Красная линия означает, что данные слова не соответствуют друг другу, а зеленая если соответствуют. В итоге получается, что из двух слов первого набора, только одно нашло себе соответствующее слово во втором наборе. Теперь необходимо найти процент соответствия заголовков. Для этого нужно разделить количество слов, из набора, в котором меньше слов, которые нашли себе соответствие в другом наборе на количество слов в этом наборе. То есть, в данном случае это будет Ѕ =50%. Если в параметрах соответствия заголовков, стоит значение 50 или менее, то приложение вернет ответ true на вопрос: " Соответствуют ли эти заголовки друг другу?"
Похожие статьи
-
В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было...
-
Для сравнения двух таблиц на соответствие необходимо выделить некоторые характеристики, с помощью которых можно описать таблицу. В данной работе такими...
-
Парсинг интернет страниц на сегодняшний день очень широко распространенная задача. Примером может являться ситуация, когда пользователю необходимо...
-
Существует множество средств решения задачи поиска, однако эта задача очень широка и решается в абсолютно разных условиях с различными требованиями к...
-
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть...
-
Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
-
Измерение скорости вращения вала основано на подсчете количества импульсов пришедших с датчика за определенный промежуток времени. В нашем случае за 1...
-
Выбор объекта для сравнения В дипломном проекте разрабатывалась новая система электропривода на базе комплектного тиристорного преобразователя серии...
-
Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
-
Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
-
Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
-
При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
-
Для снижения вредного воздействия на окружающую среду при проектировании и эксплуатации измельчителя, выполняются природно-охранные мероприятия....
-
Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
-
Сложности творческого процесса - Современные методы поиска и разработки новых идей
Психологическая инерция. В ТРИЗ есть оператор РВС (размер, время, стоимость), позволяющий понизить психологическую инерцию мышления путем мысленного...
-
Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
-
Средства измерений и контроля - Разработка системы поверки манометров
Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
-
Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
-
Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
-
Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
-
Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
-
Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
-
Блок - схема алгоритма и его описание Схема алгоритма работы микроконтроллера приведена на рисунке 5.1. Рис. 5.1 - Схема алгоритма работы...
-
Силовое напряжение 380 В общецеховой сети подводится к клеммам. Х1-1,2,3 шкафа PLC и далее к вводному автоматическому выключателю Q1 расположенному в...
-
С момента начала работы группы структуры НИЦ [29, 30], уже стало ясно, что группа структуры различных политипами можно сравнить наилучшим путем изучения...
-
ИЗГОТОВЛЕНИЕ ПЕЧКИ - Разработка аппарата холодного копчения
Печка, детали которой приведены на рис. 2, -- производитель дыма для копчения. Рис. 2. Печка Учтите, что дым необходимо получить в результате...
-
Экономическая сущность, функции, значения общественного питания Как известно из истории экономической науки, усложнение содержания труда стало причиной...
-
Таблица 4.2 Расчет необходимого количества ручных огнетушителей Категория Помещений По пожарной опасности Предел Защища-емой Площади, м2 Класс пожара...
-
Основные рабочие устройства автомата размещены на трех конвейерах: стеклоформующем, дутьевых головок и конвейер форм. Конвейеры расположены друг над...
-
Устройство шаговых двигателей Двигатели с переменным магнитным сопротивлением [стр. 4, 2] Шаговые двигатели с переменным сопротивлением имеют несколько...
-
Тарелка - короткая стеклянная трубка с конусообразным расширением. Диаметр основания конической части устанавливают в зависимости от диаметра горловины...
-
К разряду вспомогательного оборудования в аппаратной части АСУТП относят то оборудование, которое обеспечивает нормальную работу основного оборудования...
-
После разработки метода оценки состояния оборудования перейдем к описанию его алгоритмического обеспечения. Алгоритмическое обеспечение, разработанное...
-
Резонанс шагового двигателя - Разработка стенда управления шаговым двигателем
Шаговым двигателям свойственен нежелательный эффект, называемый резонансом. Эффект проявляется в виде внезапного падения момента на некоторых скоростях....
-
Характеристика горбуши - Разработка ассортимента и технологии блюд и изделий из рыбы
Горбуша - одна из популярных промышленных рыб, ее еще называют розовым лососем. Ценится продукт за довольно вкусное мясо и деликатесную икру. Горбуша,...
-
Способы управления шаговым двигателем - Разработка стенда управления шаговым двигателем
Волновая и фазовая коммутация фаз Первый способ обеспечивается попеременной коммутации фаз, при этом они не перекрываются, в один момент времени включена...
-
Технологическая схема сборки изделия - Разработка технологического процесса сборки масляного насоса
Технологическая схема сборки показывает, в какой последовательности необходимо присоединять и закреплять к друг другу элементы, из которых собирается...
-
ОБЩИЕ СВЕДЕНИЯ О НАДЕЖНОСТИ АВТОМАТИЧЕСКИХ СИСТЕМ - Надежность систем автоматизации
Для оценки поведения автоматической системы в эксплуата-ционных условиях используется понятие надежности системы. При эксплуатации автоматическая система...
-
Заварка ламп является основной сборочной операцией при изготовлении ламп. Она заключается в герметичном соединении собранной ножки с колбой. Процесс...
-
Основные рабочие устройства автомата размещены на трех конвейерах: стеклоформующем, дутьевых головок и конвейер форм. Конвейеры расположены друг над...
Алгоритм сравнения двух заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде