Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

В данной главе будут рассматриваться алгоритмы, которые необходимо разработать для решения задач, поставленных в данной работе. Во-первых, как уже было сказано в предыдущей главе, это алгоритм сопоставления двух таблиц на соответствие друг другу. Это один из ключевых алгоритмов данной работы. Он будет использоваться для сравнения найденных таблиц с эталонной таблицей. Об эталонной таблице речь пойдет ниже. На вход данному алгоритму подается две таблицы, а на выходе получается ответ на вопрос: "Имеют ли данные таблицы схожий смысл?" в виде "Да/Нет". По аналогичной схеме будет строится алгоритм сравнения двух заголовков на соответствие. На вход данному алгоритму будет подаваться две строки(два заголовка), а на выходе будет получен ответ "Да или Нет". Параметрами при сравнении двух таблиц на соответствие друг другу будет процент схожести заголовков этих таблиц, при котором алгоритм даст положительный ответ на вопрос о соответствии таблиц и процент схожести двух заголовков друг другу, при котором при сравнении двух заголовков на релевантность будет положительный ответ. Более подробно об этом при описании алгоритма. Далее обязательно необходимы алгоритмы извлечения таблиц из документов Word, Excel и Html, для того, чтобы сопоставлять данные из них с эталонной таблицей.

Эталонная таблица - это таблица созданная пользователем, с которой будет происходить сравнение найденных таблиц на соответствие. Эталонная таблица в данной работе будет означать поисковый запрос пользователя.

Похожие статьи




Алгоритмы для поиска структурированных данных - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Предыдущая | Следующая