Алгоритм сравнения двух уровней заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два набора заголовков, которые взяты из уровней заголовков - по одному из каждой таблицы. Они будут передаваться виде двухуровневого списка, у которого одно измерение это заголовки, второе измерение это слова, которые входят в заголовки. Первым подается тот список, в котором меньше заголовков. Описание алгоритма приведено ниже.
Bool compareLevel(List<List<string>> minTbl, List<List<string>> maxTbl)
{
Int countRelevant = 0;
Foreach (List<string> lstMin in minTbl)
{
Foreach (List<string> lstMax in maxTbl) //Можно добавить глубину поиска
{
If (lstMin. Count <= lstMax. Count)
{
If (CompareHeaders(lstMin, lstMax))
{
CountRelevant++;
Break;
}
}
Else
{
If (CompareHeaders(lstMax, lstMin))
{
CountRelevant++;
Break;
}
}
}
}
Decimal dblCountRelevant = decimal. Parse(countRelevant. ToString());
If (minTbl. Count > 0)
{
Decimal value = dblCountRelevant / minTbl. Count;
If (value * 100 >= percentage_of_relevancyTables) return true;
}
Return false;
}
В псевдокоде, описанном выше, присутствуют две функции: compareLevel и CompareHeaders. В функции compareLevel происходит непосредственно сравнение двух наборов заголовков на соответствие друг другу. Для реализации этой функции использоваласб функция CompareHeaders, алгоритм работы которой описан в предыдущем пункте.
На вход алгоритму поступают два набора заголовков (один из первого уровня заголовков, второй из второго). Для каждого заголовка из набора, в котором количество заголовков меньше, проводится сравнение с каждым заголовком, где количество заголовков больше. Под сравнением заголовков понимается сравнение применение алгоритма описанного в предыдущем пункте. Если заголовок из набора, в котором меньше заголовков, находит релевантный себе заголовок во втором наборе, то переменная-счетчик countrelevant увеличивается на единицу и происходит переход к следующему заголовку из первого набора. В итоге, если countrelevant разделить на количество заголовков в наборе, в котором меньше заголовков, и это значение будет больше или равно параметру - необходимое количество процентов схожести двух наборов заголовков для признания этих наборов релевантными, то это означает, что наборы заголовков имеют схожий смысл.
Если за n считать количество заголовков в первом наборе, за m количество слов во втором, то сложность алгоритма будет стремится к выражению n*m.
Рассмотрим пример сравнения двух наборов заголовков. Есть два набора заголовков: (Студент, Результат) и (ФИО, рейтинг до экзамена, экзамен, результат).
Красная линия означает, что данные заголовки не соответствуют друг другу, а зеленая если соответствуют. В итоге получается, что из двух заголовков первого набора, только один нашел себе соответствующий заголовок во втором наборе. Теперь необходимо найти процент соответствия наборов. Для этого нужно разделить количество заголовков, из набора, в котором меньше заголовков, которые нашли себе соответствие в другом наборе на количество заголовков в этом наборе. То есть, в данном случае это будет Ѕ =50%. Если в параметрах соответствия наборов заголовков, стоит значение 50 или менее, то приложение вернет ответ true на вопрос: " Соответствуют ли эти наборы заголовки друг другу?"
Похожие статьи
-
Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два списка слов из двух заголовков. Первым...
-
Для сравнения двух таблиц на соответствие необходимо выделить некоторые характеристики, с помощью которых можно описать таблицу. В данной работе такими...
-
В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было...
-
Парсинг интернет страниц на сегодняшний день очень широко распространенная задача. Примером может являться ситуация, когда пользователю необходимо...
-
Существует множество средств решения задачи поиска, однако эта задача очень широка и решается в абсолютно разных условиях с различными требованиями к...
-
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть...
-
Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
-
Измерение скорости вращения вала основано на подсчете количества импульсов пришедших с датчика за определенный промежуток времени. В нашем случае за 1...
-
Способы управления шаговым двигателем - Разработка стенда управления шаговым двигателем
Волновая и фазовая коммутация фаз Первый способ обеспечивается попеременной коммутации фаз, при этом они не перекрываются, в один момент времени включена...
-
Выдача сертификата соответствия. - Процедура сертификации
Орган по сертификации после анализа протоколов испытаний, оценки производства, сертификации производства или системы качества (если это установлено...
-
Важнейшим с точки зрения теории управления свойством является самовыравнивание объекта. Если объект управления не обладает самовыравниванием, перед...
-
Отбор клепки. - Изготовление бондарских изделий
Изготовлению остова бочки предшествует отбор нужного количества клепки. Ее длина и толщина должны соответствовать размерам изготовляемого остова, т е....
-
Как определить качество фарфора? Возьмите тарелку, переверните и положите ее на стол. У качественного фарфора геометрия должна быть идеальной. Круглая...
-
Напитки японской кухни - Секреты национальной японской кухни
Зеленый чай. Употреблять чай ежедневно в Китае стали во время правления династии Тан (618-907), а во время династии Сунн (960-1279),чаепитие стало...
-
Для снижения вредного воздействия на окружающую среду при проектировании и эксплуатации измельчителя, выполняются природно-охранные мероприятия....
-
Сложности творческого процесса - Современные методы поиска и разработки новых идей
Психологическая инерция. В ТРИЗ есть оператор РВС (размер, время, стоимость), позволяющий понизить психологическую инерцию мышления путем мысленного...
-
Средства измерений и контроля - Разработка системы поверки манометров
Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
-
Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
-
Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
-
Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
-
Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
-
Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
-
Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
-
При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
-
Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
-
Блок - схема алгоритма и его описание Схема алгоритма работы микроконтроллера приведена на рисунке 5.1. Рис. 5.1 - Схема алгоритма работы...
-
Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
-
Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
-
Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
-
Выбор объекта для сравнения В дипломном проекте разрабатывалась новая система электропривода на базе комплектного тиристорного преобразователя серии...
-
Силовое напряжение 380 В общецеховой сети подводится к клеммам. Х1-1,2,3 шкафа PLC и далее к вводному автоматическому выключателю Q1 расположенному в...
-
Таблица 4.2 Расчет необходимого количества ручных огнетушителей Категория Помещений По пожарной опасности Предел Защища-емой Площади, м2 Класс пожара...
-
После разработки метода оценки состояния оборудования перейдем к описанию его алгоритмического обеспечения. Алгоритмическое обеспечение, разработанное...
-
Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных...
-
Исходя из всего выше сказанного можно заявить о необходимости разработки методики расчета рациональной конструкции наконечника многосопловой кислородной...
-
ИЗГОТОВЛЕНИЕ ПЕЧКИ - Разработка аппарата холодного копчения
Печка, детали которой приведены на рис. 2, -- производитель дыма для копчения. Рис. 2. Печка Учтите, что дым необходимо получить в результате...
-
Введение - Автоматизация линии нанесения никеля
Автоматизация производства - процесс в развитии машинного производства, при котором функции управления и контроля, ранее выполнявшиеся человеком,...
-
Экономическая сущность, функции, значения общественного питания Как известно из истории экономической науки, усложнение содержания труда стало причиной...
-
В ходе данного проекта была рассчитана максимально возможная мощность резания на вальцетокарном калибровочном станке модели IK 825 Ф2 и определен...
-
Устойчивость САР связана с характером ее поведения после прекращения внешнего воздействия. С целью упрощения анализа устойчивости систем разработано ряд...
Алгоритм сравнения двух уровней заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде