Алгоритм сравнения двух уровней заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два набора заголовков, которые взяты из уровней заголовков - по одному из каждой таблицы. Они будут передаваться виде двухуровневого списка, у которого одно измерение это заголовки, второе измерение это слова, которые входят в заголовки. Первым подается тот список, в котором меньше заголовков. Описание алгоритма приведено ниже.

Bool compareLevel(List<List<string>> minTbl, List<List<string>> maxTbl)

{

Int countRelevant = 0;

Foreach (List<string> lstMin in minTbl)

{

Foreach (List<string> lstMax in maxTbl) //Можно добавить глубину поиска

{

If (lstMin. Count <= lstMax. Count)

{

If (CompareHeaders(lstMin, lstMax))

{

CountRelevant++;

Break;

}

Else

{

If (CompareHeaders(lstMax, lstMin))

{

CountRelevant++;

Break;

}

Decimal dblCountRelevant = decimal. Parse(countRelevant. ToString());

If (minTbl. Count > 0)

{

Decimal value = dblCountRelevant / minTbl. Count;

If (value * 100 >= percentage_of_relevancyTables) return true;

}

Return false;

}

В псевдокоде, описанном выше, присутствуют две функции: compareLevel и CompareHeaders. В функции compareLevel происходит непосредственно сравнение двух наборов заголовков на соответствие друг другу. Для реализации этой функции использоваласб функция CompareHeaders, алгоритм работы которой описан в предыдущем пункте.

На вход алгоритму поступают два набора заголовков (один из первого уровня заголовков, второй из второго). Для каждого заголовка из набора, в котором количество заголовков меньше, проводится сравнение с каждым заголовком, где количество заголовков больше. Под сравнением заголовков понимается сравнение применение алгоритма описанного в предыдущем пункте. Если заголовок из набора, в котором меньше заголовков, находит релевантный себе заголовок во втором наборе, то переменная-счетчик countrelevant увеличивается на единицу и происходит переход к следующему заголовку из первого набора. В итоге, если countrelevant разделить на количество заголовков в наборе, в котором меньше заголовков, и это значение будет больше или равно параметру - необходимое количество процентов схожести двух наборов заголовков для признания этих наборов релевантными, то это означает, что наборы заголовков имеют схожий смысл.

Если за n считать количество заголовков в первом наборе, за m количество слов во втором, то сложность алгоритма будет стремится к выражению n*m.

Рассмотрим пример сравнения двух наборов заголовков. Есть два набора заголовков: (Студент, Результат) и (ФИО, рейтинг до экзамена, экзамен, результат).

Красная линия означает, что данные заголовки не соответствуют друг другу, а зеленая если соответствуют. В итоге получается, что из двух заголовков первого набора, только один нашел себе соответствующий заголовок во втором наборе. Теперь необходимо найти процент соответствия наборов. Для этого нужно разделить количество заголовков, из набора, в котором меньше заголовков, которые нашли себе соответствие в другом наборе на количество заголовков в этом наборе. То есть, в данном случае это будет Ѕ =50%. Если в параметрах соответствия наборов заголовков, стоит значение 50 или менее, то приложение вернет ответ true на вопрос: " Соответствуют ли эти наборы заголовки друг другу?"

Похожие статьи

Алгоритм сравнения двух заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Данный алгоритм будет использоваться в алгоритме сопоставления двух таблиц. На вход алгоритму подается два списка слов из двух заголовков. Первым...
Создание модели таблицы в программе - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Для сравнения двух таблиц на соответствие необходимо выделить некоторые характеристики, с помощью которых можно описать таблицу. В данной работе такими...
Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было...
DLL библиотека для парсинга интернет-страниц, Проблема сравнения двух основ слов на равенство - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Парсинг интернет страниц на сегодняшний день очень широко распространенная задача. Примером может являться ситуация, когда пользователю необходимо...
Аналитический обзор методов и средств для разработки необходимых алгоритмов и приложения в целом, Основные определения - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Существует множество средств решения задачи поиска, однако эта задача очень широка и решается в абсолютно разных условиях с различными требованиями к...
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть...
Разработка алгоритма работы предлагаемого дискретного анализатора частотного спектра сигнала для защиты информации в системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
Описание принципа действия и общий алгоритм работы, Разработка функциональных схем и блок-схем алгоритмов работы отдельных блоков - Микроконтроллерный измеритель частоты оборотов

Измерение скорости вращения вала основано на подсчете количества импульсов пришедших с датчика за определенный промежуток времени. В нашем случае за 1...
Способы управления шаговым двигателем - Разработка стенда управления шаговым двигателем

Волновая и фазовая коммутация фаз Первый способ обеспечивается попеременной коммутации фаз, при этом они не перекрываются, в один момент времени включена...
Выдача сертификата соответствия. - Процедура сертификации

Орган по сертификации после анализа протоколов испытаний, оценки производства, сертификации производства или системы качества (если это установлено...
Выбор закона регулирования и типа регулятора, Расчеты параметров настройки ПИ - регулятора с учетом типового процесса регулирования, Расчеты параметров настройки ПИД - регулятора с учетом типового процесса регулирования - Синтез АСР уровня моющего вещества в емкости для промывки изделий

Важнейшим с точки зрения теории управления свойством является самовыравнивание объекта. Если объект управления не обладает самовыравниванием, перед...
Отбор клепки. - Изготовление бондарских изделий

Изготовлению остова бочки предшествует отбор нужного количества клепки. Ее длина и толщина должны соответствовать размерам изготовляемого остова, т е....
Определение качества фарфоровой посуды - Товароведение непродовольственных товаров (на примере фарфоровой посуды)

Как определить качество фарфора? Возьмите тарелку, переверните и положите ее на стол. У качественного фарфора геометрия должна быть идеальной. Круглая...
Напитки японской кухни - Секреты национальной японской кухни

Зеленый чай. Употреблять чай ежедневно в Китае стали во время правления династии Тан (618-907), а во время династии Сунн (960-1279),чаепитие стало...
Меры по охране окружающей среды - Разработка конструкции и элементов технологии изготовления измельчителя древесных отходов

Для снижения вредного воздействия на окружающую среду при проектировании и эксплуатации измельчителя, выполняются природно-охранные мероприятия....
Сложности творческого процесса - Современные методы поиска и разработки новых идей

Психологическая инерция. В ТРИЗ есть оператор РВС (размер, время, стоимость), позволяющий понизить психологическую инерцию мышления путем мысленного...
Средства измерений и контроля - Разработка системы поверки манометров

Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
Патентный поиск, Общие сведения, Регламент поиска, Используемые источники информации - Проект кузова крытого вагона из экструдированного алюминия

Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
Средства для измерения pH жидкостей (pH-метры), Выбор конкретного средства измерения pH - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
Классификация средств измерения давления - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
Схема решения проектно-конструкторских задач с помощью средств вычислительной техники - Выбор варианта автоматизации процесса конструирования

Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
Конструкторско-технологическая часть, Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации, Анализ параметров генерируемых тактовых импульсов - Разработка анализатора спектра для комплексной защиты объектов информатизации

Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
Разработка структурной схемы дискретного анализатора частотного спектра сигнала для защиты информации в многоканальной системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
Защита информации в системе связи с использованием метода неполного (сокращенного) вычисления гармонических коэффициентов Фурье - Разработка анализатора спектра для комплексной защиты объектов информатизации

При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
Разработка системы защиты передаваемой информации в канале связи с использованием анализатора спектра сигнала, Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала - Разработка анализатора спектра для комплексной защиты объектов информатизации

Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
РАЗРАБОТКА И ОТЛАДКА РАБОЧЕЙ ПРОГРАММЫ МКУ, Блок - схема алгоритма и его описание, Структура программы, Листинг программы, Описание модуля программы - Микроконтроллерный измеритель частоты оборотов

Блок - схема алгоритма и его описание Схема алгоритма работы микроконтроллера приведена на рисунке 5.1. Рис. 5.1 - Схема алгоритма работы...
Современные методы поиска и разработки идей, Методы поиска и разработки новых идей - Современные методы поиска и разработки новых идей

Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
ХАРАКТЕРИСТИКА И АНАЛИЗ ЭКОНОМИЧЕСКОЙ СИСТЕМЫ ПК "ШЕКСНИНСКИЙ МАСЛОЗАВОД", Общая информация - Разработка технологической инновации в производстве творога

Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
Разработка новой системы автоматизации, функциональная схема автоматизации сортирующего гидроразбивателя - Производство бумаги

Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ ВНЕДРЕНИЯ СИСТЕМЫ ЭЛЕКТРОПРИВОДА, Выбор объекта для сравнения - Электропривод и автоматизация главного привода специального вальцето-карного станкамодели IK 825 Ф2

Выбор объекта для сравнения В дипломном проекте разрабатывалась новая система электропривода на базе комплектного тиристорного преобразователя серии...
Разработка алгоритма работы системы - Модернизация системы регулирования температурных параметров на агрегате электролитического лужения АЭЛ-1200/III "АрселорМиттал Темиртау"

Силовое напряжение 380 В общецеховой сети подводится к клеммам. Х1-1,2,3 шкафа PLC и далее к вводному автоматическому выключателю Q1 расположенному в...
Выбор и расчет первичных средств пожаротушения - Проект завода по производству преформ - заготовок для ПЭТ бутылок, изготавливаемых из полимера (полиэтилентерефталата)

Таблица 4.2 Расчет необходимого количества ручных огнетушителей Категория Помещений По пожарной опасности Предел Защища-емой Площади, м2 Класс пожара...
Экспериментальные исследования метода и алгоритмов оценки состояния оборудования, Алгоритм идентификации модели оценки технического состояния оборудованияна основе критерия максимума - Оптимизация стратегии технического обслуживания и ремонта

После разработки метода оценки состояния оборудования перейдем к описанию его алгоритмического обеспечения. Алгоритмическое обеспечение, разработанное...
Сканеры - Технологии и средства сканирования и распознавания графических и текстовых печатных материалов

Сканер (Scanner) - устройство ввода в ЭВМ информации в виде текстов, рисунков, слайдов, фотографий на плоских носителях, а также изображения объемных...
Разработка конструкции наконечника фурмы, Требования к конструкции наконечника - Пульсирующая фурма в кислородном конвертере

Исходя из всего выше сказанного можно заявить о необходимости разработки методики расчета рациональной конструкции наконечника многосопловой кислородной...
ИЗГОТОВЛЕНИЕ ПЕЧКИ - Разработка аппарата холодного копчения

Печка, детали которой приведены на рис. 2, -- производитель дыма для копчения. Рис. 2. Печка Учтите, что дым необходимо получить в результате...
Введение - Автоматизация линии нанесения никеля

Автоматизация производства - процесс в развитии машинного производства, при котором функции управления и контроля, ранее выполнявшиеся человеком,...
Теоретические основы разрабатываемой темы, Экономическая сущность, функции, значения общественного питания - Разработка производственной программы ресторана "Rio-GRANDE"

Экономическая сущность, функции, значения общественного питания Как известно из истории экономической науки, усложнение содержания труда стало причиной...
ЗАКЛЮЧЕНИЕ - Электропривод и автоматизация главного привода специального вальцето-карного станкамодели IK 825 Ф2

В ходе данного проекта была рассчитана максимально возможная мощность резания на вальцетокарном калибровочном станке модели IK 825 Ф2 и определен...
Анализ устойчивости САР по критерию Найквиста - Синтез АСР уровня моющего вещества в емкости для промывки изделий

Устойчивость САР связана с характером ее поведения после прекращения внешнего воздействия. С целью упрощения анализа устойчивости систем разработано ряд...

Алгоритм сравнения двух уровней заголовков на соответствие друг другу - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Предыдущая | Следующая