Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было сказано в предыдущей главе, это алгоритм сопоставления двух таблиц на соответствие друг другу. Это один из ключевых алгоритмов данной работы. Он будет использоваться для сравнения найденных таблиц с эталонной таблицей. Об эталонной таблице речь пойдет ниже. На вход данному алгоритму подается две таблицы, а на выходе получается ответ на вопрос: "Имеют ли данные таблицы схожий смысл?" в виде "Да/Нет". По аналогичной схеме будет строится алгоритм сравнения двух заголовков на соответствие. На вход данному алгоритму будет подаваться две строки(два заголовка), а на выходе будет получен ответ "Да или Нет". Параметрами при сравнении двух таблиц на соответствие друг другу будет процент схожести заголовков этих таблиц, при котором алгоритм даст положительный ответ на вопрос о соответствии таблиц и процент схожести двух заголовков друг другу, при котором при сравнении двух заголовков на релевантность будет положительный ответ. Более подробно об этом при описании алгоритма. Далее обязательно необходимы алгоритмы извлечения таблиц из документов Word, Excel и Html, для того, чтобы сопоставлять данные из них с эталонной таблицей.
Эталонная таблица - это таблица созданная пользователем, с которой будет происходить сравнение найденных таблиц на соответствие. Эталонная таблица в данной работе будет означать поисковый запрос пользователя.
Похожие статьи
-
Парсинг интернет страниц на сегодняшний день очень широко распространенная задача. Примером может являться ситуация, когда пользователю необходимо...
-
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть...
-
Существует множество средств решения задачи поиска, однако эта задача очень широка и решается в абсолютно разных условиях с различными требованиями к...
-
Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
-
Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
-
Электропривод - это тип электромеханического устройства, разработанный для мониторинга и управления запорной и регулирующей арматурой. Данные устройства...
-
Транзисторы выбираются, используя следующие показатели: 1). По электрической прочности (максимально допустимое напряжение между коллектором и эмиттером в...
-
Успешное выполнение ремонта в значительной мере зависит от качества разборки. Разборочный процесс принято изображать в виде технологической схемы. При...
-
Для отделки платьев из трикотажа используют бейку. Ассортимент отделочной бейки включает ряд различный по ширине (10, 15, 20, 30 и 80мм), гладкокрашеные...
-
Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
-
Проверку точности работы дискретного анализатора частотного спектра сигнала в разработанной системе защиты информации выполним путем сравнения модуля...
-
Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
-
Классификация средств измерения температуры Классификация приборов для измерения температуры по принципу действия изображена на рисунке 3.3. Рисунок 3.3...
-
Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
-
После расчета трудоемкости и продолжительности отдельных стадий технической подготовки производства составим календарный (сетевой) график всей...
-
Наибольшее распространение получили следующие типы расходомеров: Электромагнитные (магнитно-индукционные). Они основаны на использовании закона ЭМИ...
-
Техническое размножение лекал не имеет достаточно глубоких научных обоснований, т. к. представляет собой совокупность различных расчетно-графических...
-
При выполнении данной работы была спроектирована система автоматизированного управления установкой для нейтрализации азотной кислоты аммиаком. Была...
-
Надежность Расчетным показателем надежности для создаваемой системы является вероятность безотказной работы - вероятность того, что в пределах заданной...
-
Для управления технологическим процессом нейтрализации азотной кислоты аммиаком необходимо наличие трех уровней управления (Рисунок 3.13). Верхний...
-
Заключение - Разработка анализатора спектра для комплексной защиты объектов информатизации
В результате дипломного проектирования было выполнено: - проанализированы известные технические решения по защите информации в канале связи с...
-
К разряду вспомогательного оборудования в аппаратной части АСУТП относят то оборудование, которое обеспечивает нормальную работу основного оборудования...
-
Трудоемкость выполнения стадий конструкторской технической подготовки производства анализатора спектра определена на основе усредненных нормативов...
-
Для выбранного типа транзистора КТ355АМ уточним значение коэффициента запаса усиления по напряжению с помощью формулы , Где IK HAC = (0,3 ... 0,8)- IK...
-
Измерение скорости вращения вала основано на подсчете количества импульсов пришедших с датчика за определенный промежуток времени. В нашем случае за 1...
-
Естественные или искусственные материалы, которые после затворения водой или введения отвердителя образуют пластическое тесто, постепенно затвердевающее...
-
Определение формы и габаритных размеров упаковки Для разработки развертки и штанцевальной формы картонной упаковки для пищевой отрасли была выбрана...
-
Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
-
Моя практика проходила в сварочном цехе. Цех ИТЦ (рашифровать) сварочный специализируется на изготовлении трубопроводов для обвязки газокомпрессорных...
-
Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
-
У - для сварки углеродистых сталей Д - с толстым покрытием Е - международное обозначение плавящегося покрытого электрода 51 - предел прочности на...
-
В данном случае нам потребуются 2 прибора для измерения температуры: в аппарате (контур 2) в диапазоне 130±10°С и конденсата сокового пара, поступающего...
-
Силовое напряжение 380 В общецеховой сети подводится к клеммам. Х1-1,2,3 шкафа PLC и далее к вводному автоматическому выключателю Q1 расположенному в...
-
Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
-
Защита и увеличение объема передаваемой информации в многоканальной системе связи с использованием дискретных анализаторов частотного спектра сигнала...
-
В качестве электрической схемы генератора тактовых импульсов выберем мультивибраторный вариант его построения на биполярных транзисторах, которые...
-
Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
-
В схеме (Приложение А) для поддержания температуры смеси в аппарате в диапазоне 130±10°С и конденсата сокового пара, поступающего в аппарат, в диапазоне...
-
При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
-
Анализ известных технических решений по защите информации в канале связи с использованием анализатора спектра сигнала Современный мировой уровень...
Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде