Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде
Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть представлена в разных форматах.
На данный момент в основных поисковых системах существует поиск только через строковый запрос, то есть пользователь вводит сроку для поиска, к примеру, на главную страницу поискового робота Яндекс и он выдает ему соответствующий этому запросу результат. С точки зрения пользователя, он вводит в поисковую машину только строковый запрос, но Яндекс на основе данной поисковой строки формирует целый запрос с такими параметрами как дата, язык, локализация и многое другое. С некоторыми параметрами есть возможность работать, так как они передаются через GET запрос. Один из таких параметров это строка запроса, а это в свое очередь означает, что программа в автоматическом режиме может подавать в Яндекс GET запросы различными поисковыми запросами. Более подробно механизм работы с поисковыми системами из приложения описан ниже. excel word парсинг интернет
В запросе к поисковой машине можно задать дополнительные параметры (через расширенный поиск), но при этом все-таки сложно отобрать данные, релевантные не запросу, а информационным потребностям пользователей.
Кроме того, часто необходимо найти данные, представленные в виде таблиц (например: данные об экономическом развитии, публикуемые органами статистики, данные о состоянии конкретных предприятий, организаций представленные ими, прайс-листы и пр.) для последующего анализа. Эти данные могут находится в разных источниках и в разных форматах.
Таким образом, для различных категорий пользователей (исследователей, аналитиков, клиентов Интернет-магазинов и пр.) актуальной становится задача поиска именно структурированной информации в гетерогенных источниках.
В данной работе решается задача поиска таблиц в сети Интернет и на локальной машине. В качестве параметра для поиска рассматривается не строка, а таблица, для которой мы будем искать подобные таблицы, где критерии сравнения задаются пользователем. Целевым объектом для поиска являются таблицы, которые должны соответствовать заданной эталонной таблице и дополнительным задаваемым пользователем параметрам, таким как процент соответствия заголовков в таблицах.
Эта задача является актуальной для многих категорий пользователей, решаемых ими задач. Рассмотрим задачу сбора статистических данных для аналитики. Для того чтобы решить ее стандартным способом, аналитик вводит текстовый запрос в поисковую систему, и просматривает информацию по полученным в качестве результатов запроса ссылкам в надежде найти необходимую табличную информацию со статистикой. Зайдя на страницу по какой-либо ссылке, пользователь найдет, скорее всего, некоторую текстовую информацию соответствующую запросу, но не обязательно там будет таблица, а если и будет, то далеко не факт, что она будет содержать релевантные потребностям пользователя данные. Таким образом, поиск может затянуться на долгое время и далеко не факт, что он закончится успехом. После поиска аналитику необходимо обработать полученные данные, сравнить их, привести к некоторому виду, пригодному для дальнейшей обработки.
Таким образом, актуальной становится задача реализации приложения, которое позволило бы не только повысить релевантность результатов при поиске табличных данных, но и снизить трудоемкость их обработки.
Объектом исследования в данной работе будет информационный поиск, а предметом исследования методы и средства поиска структурированной информации.
Целью данной работы является разработка приложения, которое предназначено для поиска таблиц на локальной машине, в локальной сети и в Интернет по заданному эталону (эталонной таблице) на основе сопоставления структур таблиц и соответствия данных заданным параметрам поиска.
Для достижения поставленной цели должны быть решены следующие задачи:
- - Анализ законченных программных решений и методов решения отдельных задач в области поиска структурированных данных. - Разработать алгоритм для программного поиска документов (Word, Excel, Html) на локальном компьютере. - Рассмотреть возможности языка C# при обработке документов выбранных для поиска (Word, Excel, Html). - Разработать алгоритм для определения схожести таблиц по структуре. - Рассмотреть возможности языка C# в для решения задачи разбора html документов. - Разработать алгоритм для поиска и выгрузки табличных данных в интернете в документах (Word, Excel, Html). - Разработать приложение, реализующее разработанные алгоритмы для решения задачи поиска табличных данных в сети интернет и на локальной машине на языке C#.
Разработанная программа должна решать задачу автоматизации поиска таблиц, их загрузки в на локальный компьютер и сохранение ссылки на загруженные файлы в результатах поиска. Таким образом, пользователь освобождается от просмотра найденных страниц и поиска нужной информации на них (ссылок на найденные таблицы, просмотра необработанных данных и т. д.). Использование программы должно снизить трудоемкость выполнения рутинных операций, освободить время пользователя для анализа и обработки найденных данных. На выходе пользователь получит список ссылок на результаты поиска. От пользователя необходимо только подать структуру данной таблицы (наименования столбцов), которые соответствуют, по мнению пользователя, структуре искомых данных, а также задать дополнительные параметры поиска.
Результатом выполнения работы должен стать исследовательский прототип приложения, который может использоваться как отдельное приложение, устанавливаемое на рабочих местах пользователей.
Похожие статьи
-
Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
-
Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
-
Введение - Автоматизация процесса сухого помола цементного клинкера в трубной шаровой мельнице
Техническое перевооружение предприятий стройиндустрии, ускоренное внедрение новых интенсифицированных технологических процессов невозможно без...
-
Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
-
Введение - Автоматика и автоматизация технологических процессов
Курс "Системы управления технологическими процессами" ("Автоматика и автоматизация технологических процессов") направлен на изучение вопросов управления...
-
Введение - Разработка технологического процесса на изготовление детали "Фланец"
Будущие учителя технологии и предпринимательства должны владеть знаниями по обработке конструкционных материалов, а именно знаниями о свойствах...
-
Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
-
Средства измерений и контроля - Разработка системы поверки манометров
Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
-
Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
-
Введение - Проблемы и перспективы автоматизации предприятий легкой промышленности в России
Переход к рыночным отношениям в экономике и научно-технический прогресс чрезвычайно ускорили темпы внедрения во все сферы социально-экономической жизни...
-
После расчета трудоемкости и продолжительности отдельных стадий технической подготовки производства составим календарный (сетевой) график всей...
-
Проверку точности работы дискретного анализатора частотного спектра сигнала в разработанной системе защиты информации выполним путем сравнения модуля...
-
ВВЕДЕНИЕ - Разработка аппарата холодного копчения
Копчение -- процесс обработки пищевых продуктов дымовоздушной смесью с целью достижения бактериального и антиокислительного эффектов. При этом их...
-
Настройка контроллера и управление контроллером осуществляются через персональный или карманный компьютер при помощи программы "AK2-Service Tool"....
-
Цели метода конструирование, в конечном счете, следующие: - получение более лучших и более экономичных изделий; - рационализация и создание предпосылки...
-
ВВЕДЕНИЕ - Технология изготовления шезлонга
Большинство физических факторов внешней среды, во взаимодействии с которыми эволюционировал человеческий организм, имеют электромагнитную природу. Хорошо...
-
Введение - Разработка новых видов горячих блюд из грибов
Искусство кулинарии - одно из самых древних. Настоящий повар - это талант, которым наделен не каждый человек. По сути, повар должен обладать особым...
-
Интенсивное развитие радиоэлектронной техники обусловило постоянное присутствие повышенного уровня электромагнитного излучения (ЭМИ) в окружающей среде...
-
Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
-
Выбор транспортных средств для заготовок и деталей производим исходя из габаритных размеров деталей, а так же планировкой рабочих мест, расположения...
-
Введение - Разработка технологического процесса изготовления стола для компьютера
Производство компьютерных столов приобретает все большую актуальность, по мере того, как компьютерная техника проникает во все сферы жизни и деятельности...
-
Введение, Характеристика готового продукта - Разработка технологии получения строительного материала
В данной курсовой работе "разработка технологии получения строительного материала" мы будем рассматривать следующие решения задач, для достижения цели:...
-
Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
-
Обзор методов и средств поверки манометров пружинных образцовых типа МО Манометров пружинных образцовых типа МО предназначены для проверки в лабораторных...
-
При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
-
Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
-
Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
-
Анализ известных технических решений по защите информации в канале связи с использованием анализатора спектра сигнала Современный мировой уровень...
-
Таблица 4 - Режимы термообработки Операция T, °С Охлаждающая среда HRC Цементация 930 Охлаждение медленное в колодцах или ящиках Закалка 820 - 840...
-
Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
-
Технологические, эстетические и конструктивно-эргономические требования к одежде из года в год возрастают. На текстильном рынке появляются новые ткани,...
-
Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
-
ВВЕДЕНИЕ - Разработка проекта швейного цеха по изготовлению женского легкого платья
Главная задача швейной промышленности - удовлетворение потребности людей в одежде высокого качества и разнообразного ассортимента. Решение этой задачи...
-
Средства контроля АК-2 - Модули. Базовый модуль - предназначен для управления центральной холодильной машиной Модули расширения. В сложных системах могут...
-
Введение - Разработка автоматизированной системы управления промышленной холодильной установкой
Современный уровень производства пищевых продуктов характеризуется с одной стороны увеличением урожайности полей за счет введения новых урожайных сортов...
-
Современная техника для формования булочек Позволяет точное и быстрое тестоделение и округление тестовых заготовок, но и щадящую обработку, что позволяет...
-
Наладку систем автоматизации начинают до полного завершение всех монтажных работ на объекте. При этом необходимо убедиться в том, что отдельные приборы...
-
Введение - Автоматизация линии нанесения никеля
Автоматизация производства - процесс в развитии машинного производства, при котором функции управления и контроля, ранее выполнявшиеся человеком,...
-
Просеиватель МПМ-800м Этот просеиватель предназначен для просеивания муки. Подвешенный мешок с мукой подается к загруженному бункеру, в который...
-
Под временем перерывов понимается часть рабочего дня, в течение которой трудовой процесс не осуществляется по различным причинам. Время работы в свою...
Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде