Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Объем информации в Интернет растет c каждым днем, а соответственно и растут потребности пользователей в поиске информации, которая может быть представлена в разных форматах.

На данный момент в основных поисковых системах существует поиск только через строковый запрос, то есть пользователь вводит сроку для поиска, к примеру, на главную страницу поискового робота Яндекс и он выдает ему соответствующий этому запросу результат. С точки зрения пользователя, он вводит в поисковую машину только строковый запрос, но Яндекс на основе данной поисковой строки формирует целый запрос с такими параметрами как дата, язык, локализация и многое другое. С некоторыми параметрами есть возможность работать, так как они передаются через GET запрос. Один из таких параметров это строка запроса, а это в свое очередь означает, что программа в автоматическом режиме может подавать в Яндекс GET запросы различными поисковыми запросами. Более подробно механизм работы с поисковыми системами из приложения описан ниже. excel word парсинг интернет

В запросе к поисковой машине можно задать дополнительные параметры (через расширенный поиск), но при этом все-таки сложно отобрать данные, релевантные не запросу, а информационным потребностям пользователей.

Кроме того, часто необходимо найти данные, представленные в виде таблиц (например: данные об экономическом развитии, публикуемые органами статистики, данные о состоянии конкретных предприятий, организаций представленные ими, прайс-листы и пр.) для последующего анализа. Эти данные могут находится в разных источниках и в разных форматах.

Таким образом, для различных категорий пользователей (исследователей, аналитиков, клиентов Интернет-магазинов и пр.) актуальной становится задача поиска именно структурированной информации в гетерогенных источниках.

В данной работе решается задача поиска таблиц в сети Интернет и на локальной машине. В качестве параметра для поиска рассматривается не строка, а таблица, для которой мы будем искать подобные таблицы, где критерии сравнения задаются пользователем. Целевым объектом для поиска являются таблицы, которые должны соответствовать заданной эталонной таблице и дополнительным задаваемым пользователем параметрам, таким как процент соответствия заголовков в таблицах.

Эта задача является актуальной для многих категорий пользователей, решаемых ими задач. Рассмотрим задачу сбора статистических данных для аналитики. Для того чтобы решить ее стандартным способом, аналитик вводит текстовый запрос в поисковую систему, и просматривает информацию по полученным в качестве результатов запроса ссылкам в надежде найти необходимую табличную информацию со статистикой. Зайдя на страницу по какой-либо ссылке, пользователь найдет, скорее всего, некоторую текстовую информацию соответствующую запросу, но не обязательно там будет таблица, а если и будет, то далеко не факт, что она будет содержать релевантные потребностям пользователя данные. Таким образом, поиск может затянуться на долгое время и далеко не факт, что он закончится успехом. После поиска аналитику необходимо обработать полученные данные, сравнить их, привести к некоторому виду, пригодному для дальнейшей обработки.

Таким образом, актуальной становится задача реализации приложения, которое позволило бы не только повысить релевантность результатов при поиске табличных данных, но и снизить трудоемкость их обработки.

Объектом исследования в данной работе будет информационный поиск, а предметом исследования методы и средства поиска структурированной информации.

Целью данной работы является разработка приложения, которое предназначено для поиска таблиц на локальной машине, в локальной сети и в Интернет по заданному эталону (эталонной таблице) на основе сопоставления структур таблиц и соответствия данных заданным параметрам поиска.

Для достижения поставленной цели должны быть решены следующие задачи:

- Анализ законченных программных решений и методов решения отдельных задач в области поиска структурированных данных. - Разработать алгоритм для программного поиска документов (Word, Excel, Html) на локальном компьютере. - Рассмотреть возможности языка C# при обработке документов выбранных для поиска (Word, Excel, Html). - Разработать алгоритм для определения схожести таблиц по структуре. - Рассмотреть возможности языка C# в для решения задачи разбора html документов. - Разработать алгоритм для поиска и выгрузки табличных данных в интернете в документах (Word, Excel, Html). - Разработать приложение, реализующее разработанные алгоритмы для решения задачи поиска табличных данных в сети интернет и на локальной машине на языке C#.

Разработанная программа должна решать задачу автоматизации поиска таблиц, их загрузки в на локальный компьютер и сохранение ссылки на загруженные файлы в результатах поиска. Таким образом, пользователь освобождается от просмотра найденных страниц и поиска нужной информации на них (ссылок на найденные таблицы, просмотра необработанных данных и т. д.). Использование программы должно снизить трудоемкость выполнения рутинных операций, освободить время пользователя для анализа и обработки найденных данных. На выходе пользователь получит список ссылок на результаты поиска. От пользователя необходимо только подать структуру данной таблицы (наименования столбцов), которые соответствуют, по мнению пользователя, структуре искомых данных, а также задать дополнительные параметры поиска.

Результатом выполнения работы должен стать исследовательский прототип приложения, который может использоваться как отдельное приложение, устанавливаемое на рабочих местах пользователей.

Похожие статьи

Разработка структурной схемы дискретного анализатора частотного спектра сигнала для защиты информации в многоканальной системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Структурная схема предлагаемого дискретного анализатора частотного спектра сигнала, представленного в [7] как устройство для вычисления модулей...
Схема решения проектно-конструкторских задач с помощью средств вычислительной техники - Выбор варианта автоматизации процесса конструирования

Основным технологическим средством автоматизации проектирования в машиностроении является цифровая ЭВМ, оперирующая с информацией, представленной в...
Введение - Автоматизация процесса сухого помола цементного клинкера в трубной шаровой мельнице

Техническое перевооружение предприятий стройиндустрии, ускоренное внедрение новых интенсифицированных технологических процессов невозможно без...
Современные методы поиска и разработки идей, Методы поиска и разработки новых идей - Современные методы поиска и разработки новых идей

Технология - это лесенка, ведущая к намеченной цели. Современный изобретатель фильтрует варианты, отбрасывая то, что кажется ему неудачным. Увеличение...
Введение - Автоматика и автоматизация технологических процессов

Курс "Системы управления технологическими процессами" ("Автоматика и автоматизация технологических процессов") направлен на изучение вопросов управления...
Введение - Разработка технологического процесса на изготовление детали "Фланец"

Будущие учителя технологии и предпринимательства должны владеть знаниями по обработке конструкционных материалов, а именно знаниями о свойствах...
Средства для измерения pH жидкостей (pH-метры), Выбор конкретного средства измерения pH - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения уровня концентрации (показатель рН) ионов водорода в растворе или жидкости используют pH метр. Его принцип действия основывается на...
Средства измерений и контроля - Разработка системы поверки манометров

Техническое средство, предназначенное для измерений, имеющее нормированные метрологические характеристики, воспроизводящее и (или) хранящее единицу...
ХАРАКТЕРИСТИКА И АНАЛИЗ ЭКОНОМИЧЕСКОЙ СИСТЕМЫ ПК "ШЕКСНИНСКИЙ МАСЛОЗАВОД", Общая информация - Разработка технологической инновации в производстве творога

Общая информация В данном разделе подробнее рассмотрим объект исследования - ПК "Шекснинский маслозавод". Форма собственности - частная....
Введение - Проблемы и перспективы автоматизации предприятий легкой промышленности в России

Переход к рыночным отношениям в экономике и научно-технический прогресс чрезвычайно ускорили темпы внедрения во все сферы социально-экономической жизни...
Разработка календарного (сетевого) графика технической подготовки производства анализатора спектра для спроектированной системы защиты информации - Разработка анализатора спектра для комплексной защиты объектов информатизации

После расчета трудоемкости и продолжительности отдельных стадий технической подготовки производства составим календарный (сетевой) график всей...
Оценка точности работы дискретного анализатора частотного спектра сигнала в разработанной системе защиты информации - Разработка анализатора спектра для комплексной защиты объектов информатизации

Проверку точности работы дискретного анализатора частотного спектра сигнала в разработанной системе защиты информации выполним путем сравнения модуля...
ВВЕДЕНИЕ - Разработка аппарата холодного копчения

Копчение -- процесс обработки пищевых продуктов дымовоздушной смесью с целью достижения бактериального и антиокислительного эффектов. При этом их...
Разработка интерфейса пользователя - Разработка автоматизированной системы управления промышленной холодильной установкой

Настройка контроллера и управление контроллером осуществляются через персональный или карманный компьютер при помощи программы "AK2-Service Tool"....
Постановка цели метода конструировании, Область применения метода конструирования - Выбор варианта автоматизации процесса конструирования

Цели метода конструирование, в конечном счете, следующие: - получение более лучших и более экономичных изделий; - рационализация и создание предпосылки...
ВВЕДЕНИЕ - Технология изготовления шезлонга

Большинство физических факторов внешней среды, во взаимодействии с которыми эволюционировал человеческий организм, имеют электромагнитную природу. Хорошо...
Введение - Разработка новых видов горячих блюд из грибов

Искусство кулинарии - одно из самых древних. Настоящий повар - это талант, которым наделен не каждый человек. По сути, повар должен обладать особым...
ВВЕДЕНИЕ - Разработка композиционного многослойного полимерного радиопоглощающего материала на основе поливинилхлоридных пленок, наполненных диспергированным углеродным волокном

Интенсивное развитие радиоэлектронной техники обусловило постоянное присутствие повышенного уровня электромагнитного излучения (ЭМИ) в окружающей среде...
Разработка новой системы автоматизации, функциональная схема автоматизации сортирующего гидроразбивателя - Производство бумаги

Функциональная схема системы автоматизации приведена на рис. Э1. В дополнение к существующим подсистемам включены следующие: АСК концентрации входящей...
Выбор средств транспортировки заготовок и деталей - Разработка конструкции и элементов технологии изготовления измельчителя древесных отходов

Выбор транспортных средств для заготовок и деталей производим исходя из габаритных размеров деталей, а так же планировкой рабочих мест, расположения...
Введение - Разработка технологического процесса изготовления стола для компьютера

Производство компьютерных столов приобретает все большую актуальность, по мере того, как компьютерная техника проникает во все сферы жизни и деятельности...
Введение, Характеристика готового продукта - Разработка технологии получения строительного материала

В данной курсовой работе "разработка технологии получения строительного материала" мы будем рассматривать следующие решения задач, для достижения цели:...
Конструкторско-технологическая часть, Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации, Анализ параметров генерируемых тактовых импульсов - Разработка анализатора спектра для комплексной защиты объектов информатизации

Расчет электрической функциональной схемы тактового генератора анализатора спектра, используемого для защиты информации В соответствии с заданием на...
Основные положения разработки системы поверки манометров, Обзор методов и средств поверки манометров пружинных образцовых типа МО - Разработка системы поверки манометров

Обзор методов и средств поверки манометров пружинных образцовых типа МО Манометров пружинных образцовых типа МО предназначены для проверки в лабораторных...
Защита информации в системе связи с использованием метода неполного (сокращенного) вычисления гармонических коэффициентов Фурье - Разработка анализатора спектра для комплексной защиты объектов информатизации

При защите и увеличении объема передаваемой информации с использованием известных методов неполного (сокращенного) гармонического анализа обеспечение...
Разработка алгоритма работы предлагаемого дискретного анализатора частотного спектра сигнала для защиты информации в системе связи - Разработка анализатора спектра для комплексной защиты объектов информатизации

Алгоритм работы предлагаемого дискретного анализатора частотного спектра сигнала [7, 9...15] основан на представлении анализируемой функции у(t) в виде...
Разработка системы защиты передаваемой информации в канале связи с использованием анализатора спектра сигнала, Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала - Разработка анализатора спектра для комплексной защиты объектов информатизации

Разработка структурной схемы системы защиты информации с использованием анализатора частотного спектра сигнала Предлагаемый способ защиты и увеличения...
Расчетно-теоретическая (специальная) часть, Анализ известных технических решений по защите информации в канале связи с использованием анализатора спектра сигнала - Разработка анализатора спектра для комплексной защиты объектов информатизации

Анализ известных технических решений по защите информации в канале связи с использованием анализатора спектра сигнала Современный мировой уровень...
ПОСЛЕДОВАТЕЛЬНОСТЬ ОПЕРАЦИИ ПРЕДВАРИТЕЛЬНОЙ И ОКОНЧАТЕЛЬНОЙ ТЕРМООБРАБОТКИ ДЕТАЛЕЙ, РЕЖИМ ОПЕРАЦИЙ ПРЕДВАРИТЕЛЬНОЙ И ОКОНЧАТЕЛЬНОЙ ТЕРМООБРАБОТКИ ДЕТАЛЕЙ (ТЕМПЕРАТУРА НАГРЕВА И МИКРОСТРУКТУРА В НАГРЕТОМ СОСТОЯНИИ, ОХЛАЖДАЮЩАЯ СРЕДА) - Разработка технологического процесса термической обработки детали

Таблица 4 - Режимы термообработки Операция T, °С Охлаждающая среда HRC Цементация 930 Охлаждение медленное в колодцах или ящиках Закалка 820 - 840...
Патентный поиск, Общие сведения, Регламент поиска, Используемые источники информации - Проект кузова крытого вагона из экструдированного алюминия

Общие сведения Патентная информация является опережающей научно-технической информацией и поэтому используется на различных стадиях научно-технических и...
Введение - Разработка технологического процесса пошива женского платья для повседневной носки по индивидуальным заказам

Технологические, эстетические и конструктивно-эргономические требования к одежде из года в год возрастают. На текстильном рынке появляются новые ткани,...
Классификация средств измерения давления - Разработка автоматизированной системы управления установкой для нейтрализации азотной кислоты аммиаком

Для измерения давления или разрежения в технологических агрегатах, сосудах или трубопроводах отечественная промышленность выпускает две группы приборов:...
ВВЕДЕНИЕ - Разработка проекта швейного цеха по изготовлению женского легкого платья

Главная задача швейной промышленности - удовлетворение потребности людей в одежде высокого качества и разнообразного ассортимента. Решение этой задачи...
Выбор аппаратных средств, Средства контроля, Вычислительные средства, Регулирование холодопроизводительности компрессора - Разработка автоматизированной системы управления промышленной холодильной установкой

Средства контроля АК-2 - Модули. Базовый модуль - предназначен для управления центральной холодильной машиной Модули расширения. В сложных системах могут...
Введение - Разработка автоматизированной системы управления промышленной холодильной установкой

Современный уровень производства пищевых продуктов характеризуется с одной стороны увеличением урожайности полей за счет введения новых урожайных сортов...
Введение - Разработка технологических линий по выработке Шаньги Сибирской ГОСТ 24557-89 и Сдобы Сибирской ГОСТ 24557-89 с целью обогащения их вторичными продуктами молочного производства

Современная техника для формования булочек Позволяет точное и быстрое тестоделение и округление тестовых заготовок, но и щадящую обработку, что позволяет...
Наладка средств автоматизации - Модернизация системы регулирования температурных параметров на агрегате электролитического лужения АЭЛ-1200/III "АрселорМиттал Темиртау"

Наладку систем автоматизации начинают до полного завершение всех монтажных работ на объекте. При этом необходимо убедиться в том, что отдельные приборы...
Введение - Автоматизация линии нанесения никеля

Автоматизация производства - процесс в развитии машинного производства, при котором функции управления и контроля, ранее выполнявшиеся человеком,...
Обоснование выбора оборудования и техника безопасности при работе - Разработка технологических линий по выработке Шаньги Сибирской ГОСТ 24557-89 и Сдобы Сибирской ГОСТ 24557-89 с целью обогащения их вторичными продуктами молочного производства

Просеиватель МПМ-800м Этот просеиватель предназначен для просеивания муки. Подвешенный мешок с мукой подается к загруженному бункеру, в который...
Методы изучения затрат рабочего времени: Метод непосредственных замеров и его разновидности, моментальных наблюдений. - Разработка производственной программы ресторана "Rio-GRANDE"

Под временем перерывов понимается часть рабочего дня, в течение которой трудовой процесс не осуществляется по различным причинам. Время работы в свою...

Введение - Разработка средств автоматизации поиска структурированной информации в гетерогенной среде

Предыдущая | Следующая