Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть представлена в разных форматах.

На данный момент в основных поисковых системах существует поиск только через строковый запрос, то есть пользователь вводит сроку для поиска, к примеру, на главную страницу поискового робота Яндекс и он выдает ему соответствующий этому запросу результат. С точки зрения пользователя, он вводит в поисковую машину только строковый запрос, но Яндекс на основе данной поисковой строки формирует целый запрос с такими параметрами как дата, язык, локализация и многое другое. С некоторыми параметрами есть возможность работать, так как они передаются через GET запрос. Один из таких параметров это строка запроса, а это в свое очередь означает, что программа в автоматическом режиме может подавать в Яндекс GET запросы различными поисковыми запросами. Более подробно механизм работы с поисковыми системами из приложения описан ниже. excel word парсинг интернет

В запросе к поисковой машине можно задать дополнительные параметры (через расширенный поиск), но при этом все-таки сложно отобрать данные, релевантные не запросу, а информационным потребностям пользователей.

Кроме того, часто необходимо найти данные, представленные в виде таблиц (например: данные об экономическом развитии, публикуемые органами статистики, данные о состоянии конкретных предприятий, организаций представленные ими, прайс-листы и пр.) для последующего анализа. Эти данные могут находится в разных источниках и в разных форматах.

Таким образом, для различных категорий пользователей (исследователей, аналитиков, клиентов Интернет-магазинов и пр.) актуальной становится задача поиска именно структурированной информации в гетерогенных источниках.

В данной работе решается задача поиска таблиц в сети Интернет и на локальной машине. В качестве параметра для поиска рассматривается не строка, а таблица, для которой мы будем искать подобные таблицы, где критерии сравнения задаются пользователем. Целевым объектом для поиска являются таблицы, которые должны соответствовать заданной эталонной таблице и дополнительным задаваемым пользователем параметрам, таким как процент соответствия заголовков в таблицах.

Эта задача является актуальной для многих категорий пользователей, решаемых ими задач. Рассмотрим задачу сбора статистических данных для аналитики. Для того чтобы решить ее стандартным способом, аналитик вводит текстовый запрос в поисковую систему, и просматривает информацию по полученным в качестве результатов запроса ссылкам в надежде найти необходимую табличную информацию со статистикой. Зайдя на страницу по какой-либо ссылке, пользователь найдет, скорее всего, некоторую текстовую информацию соответствующую запросу, но не обязательно там будет таблица, а если и будет, то далеко не факт, что она будет содержать релевантные потребностям пользователя данные. Таким образом, поиск может затянуться на долгое время и далеко не факт, что он закончится успехом. После поиска аналитику необходимо обработать полученные данные, сравнить их, привести к некоторому виду, пригодному для дальнейшей обработки.

Таким образом, актуальной становится задача реализации приложения, которое позволило бы не только повысить релевантность результатов при поиске табличных данных, но и снизить трудоемкость их обработки.

Объектом исследования в данной работе будет информационный поиск, а предметом исследования методы и средства поиска структурированной информации.

Целью данной работы является разработка приложения, которое предназначено для поиска таблиц на локальной машине, в локальной сети и в Интернет по заданному эталону (эталонной таблице) на основе сопоставления структур таблиц и соответствия данных заданным параметрам поиска.

Для достижения поставленной цели должны быть решены следующие задачи:

    - Анализ законченных программных решений и методов решения отдельных задач в области поиска структурированных данных. - Разработать алгоритм для программного поиска документов (Word, Excel, Html) на локальном компьютере. - Рассмотреть возможности языка C# при обработке документов выбранных для поиска (Word, Excel, Html). - Разработать алгоритм для определения схожести таблиц по структуре. - Рассмотреть возможности языка C# в для решения задачи разбора html документов. - Разработать алгоритм для поиска и выгрузки табличных данных в интернете в документах (Word, Excel, Html). - Разработать приложение, реализующее разработанные алгоритмы для решения задачи поиска табличных данных в сети интернет и на локальной машине на языке C#.

Разработанная программа должна решать задачу автоматизации поиска таблиц, их загрузки в на локальный компьютер и сохранение ссылки на загруженные файлы в результатах поиска. Таким образом, пользователь освобождается от просмотра найденных страниц и поиска нужной информации на них (ссылок на найденные таблицы, просмотра необработанных данных и т. д.). Использование программы должно снизить трудоемкость выполнения рутинных операций, освободить время пользователя для анализа и обработки найденных данных. На выходе пользователь получит список ссылок на результаты поиска. От пользователя необходимо только подать структуру данной таблицы (наименования столбцов), которые соответствуют, по мнению пользователя, структуре искомых данных, а также задать дополнительные параметры поиска.

Результатом выполнения работы должен стать исследовательский прототип приложения, который может использоваться как отдельное приложение, устанавливаемое на рабочих местах пользователей.

Похожие статьи




Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Предыдущая | Следующая