Информационно-поисковые системы - Осуществление хранения и поиска документов
ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете. Терминологически "информационно-поисковая система" (англ. "information retrieval system", IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных. Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.
Функционирование современных ИПС основано на двух предположениях:
Документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;
Пользователь способен указать этот признак.
Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.
Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля. Когда они являются "информационно-ориентированными", то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создает по существу новый, "самостоятельный" проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т. д.
Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие "обеспечивающие" функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причем на уровне как отдельного документа, так и информационных ресурсов в целом.
Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс - формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования. ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).
Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:
Сравниваются не сами объекты, а описания - так называемые "поисковые образы";
Сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.
Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью. При этом, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нем - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных. Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальным автомат для поиска информации - готовых решений задач основной деятельности), эффективность ее использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами. Информационный поиск подразумевает использование определенных стратегий, методов, механизмов и средств.
Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.
Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.
Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи. Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска. Методы поиска, т. е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.
Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:
Одном пространстве (обычно, тематическом);
Иерархически упорядоченном пространстве;
Альтернативных пространствах;
Динамическом (изменяющемся в процессе поиска) пространстве.
Реализуемый метод построения обеспечивать эффективные способы построения запроса для достижения целей различного типа.
Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.
Средства поиска, с одной стороны, - взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.
Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.
Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.
Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.
Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.
Процесс поиска можно представить в виде следующих основных компонент:
- 1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запрос на соответствующем ИПЯ; 2) проведение поиска в одной или нескольких поисковых системах; 3)обзор полученных результатов (ссылок); 4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных; 5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.
Для уменьшения объема отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.
По используемым поисковым технологиям ИС можно разбить на 4 категории:
- 1. Тематические каталоги; 2. Специализированные каталоги (онлайновые справочники); 3. Поисковые машины (полнотекстовый поиск); 4. Средства метапоиска.
В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков. Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации.
Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат). Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.
Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.
При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).
Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ.
Для формирования запросов используются специальные информационно-поисковые языки. ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их "релевантности", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа.
Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных. ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т. п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.
Похожие статьи
-
Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им. Цели, возможности...
-
Технические средства поиска и хранения информации - Осуществление хранения и поиска документов
Методы и средства поиска информации являются специальной отраслью знаний. Они приобретает большое значение как в области научных исследований и...
-
Введение - Осуществление хранения и поиска документов
Хранение и поиск информации - процесс автоматизированного хранения и поиска информации, обеспечивающий ее выдачу для быстрой реализации. Все, что не так...
-
Классификация массивов - История создания и развития автоматизированных информационных систем
Организационная подборка сведений о каком-либо объекте или процессе либо о ряде однородных объектов или процессов называется массивом информации. 1. По...
-
Технологии распределенных вычислений (РВ) Современное производство требует высоких скоростей обработки информации, удобных форм ее хранения и передачи....
-
Информационные ресурсы сети Интернет - Поиск информации в сети Интернет
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех...
-
Создадим SQL запросы на поиск в главной таблице Вот пример одного из запросов Так выглядит форма с запросом Организация поиска Так выглядит строка, через...
-
Основные требования и характеристики современных и применение технических средств АИС Автоматизированная информационная система (АИС) представляет собой...
-
Введение - Поверка и калибровка информационно измерительных систем
На сегодня метрологическая деятельность регулируется Законом Российской Федерации "Об обеспечении единства измерений". Из этого следует, что эта...
-
После того, как был реализован процесс карьерного планирования в информационной системе, можно сделать выводы о том, что внедрение информационной системы...
-
Определение методов реинжиниринга информационных систем Основные задачи, которые стоят перед проектировщиком, занимающимся реинжинирингом информационных...
-
При рассмотрении вопросов защиты АС целесообразно использовать четырехуровневую градацию доступа к хранимой, обрабатываемой и защищаемой АС информации....
-
Классификация ИС. Жизненный цикл ИС и его модели - Теория экономических информационных систем
Классификация по масштабу По масштабу информационные системы подразделяются на следующие группы 1. одиночные;2. групповые;3. корпоративные. Одиночные...
-
Выбор средств реализации информационной системы Названные в параграфе 1.4. настоящей работы задачи могут быть решены тремя типами средств автоматизации:...
-
Как известно, реализация каждого основного технологического процесса требует наличия вспомогательных (второстепенных) процессов, обеспечивающих...
-
Основная цель системы ДИСКОР - совершенствование оперативного управления работой железных дорог на основе более эффективного использования пропускной...
-
Современные информационные технологии определяются как непрерывные процессы обработки, хранения, передачи и отображения информации, направленные на...
-
Возрастающая сложность современных автоматизированных систем управления и повышение требовательности к ним обуславливает применение эффективных...
-
Функции человека в ИС - История создания и развития автоматизированных информационных систем
Любая информационная система подразумевает участие в ее работе людей. Среди персонала, имеющего отношение к информационным системам, выделяют такие...
-
Структурная схема терминов - История создания и развития автоматизированных информационных систем
Под системой понимают любой объект, который одновременно рассматривается и как единое целое, и как объединенная в интересах достижения поставленных целей...
-
Хранение и накопление информации - Теоретические основы информационных технологий
Хранение и накопление информации вызвано многократным ее использованием, применением условно-постоянной, справочной и других видов информации,...
-
Поиск, сбор и хранение научной информации - Поиск, накопление и обработка информации
Не все окружающие нас источники информации можно использовать для подготовки научных работ. Ведь научная работа всегда имеет достаточно узкую...
-
Информационные технологии в строительстве - Поиск, накопление и обработка информации
Трудно сегодня найти сферу или область деятельности человека, где информация не играла бы основополагающую роль. Информация является главным ресурсом...
-
Имплементация нечетких моделей в информационные системы экономических объектов
Условия функционирования экономических объектов из года в год становятся все более сложными. Несмотря на улучшающуюся информационную поддержку принятия...
-
В связи с увеличением числа сотрудников, работающих в компании, а также с расширением рабочего проекта, возникла проблема, связанная с версионностью...
-
Введение - Разработка справочной информационной системы "Рецепты"
Задание курсовой работы. Разработать и отладить информационную справочную систему "Рецепты", которая будет позволять хранить, выводить на экран,...
-
Структурирование информации - Информационные системы: понятия и характеристика
Системы управления базами данных выполняют следующие две основные функции: А) хранение и ведение представления структурной информации (данных); Б)...
-
Понятие информационных технологий - Классификация и развитие информационных систем и технологий
Информационная технология -- это процесс, использующий совокупность средств и методов сбора, обработки и передачи данных для получения информации нового...
-
Что такое информационная технология Главным направлением перестройки менеджмента и его радикального усовершенствования, приспособления к современным...
-
1. Общие сведения 1.1 Наименование Система информационной безопасности ФГБОУ ВПО "Нижегородский государственный архитектурно-строительный университет" 2....
-
Введение - Разработка информационной системы "Гостиница"
В настоящее время среди разработчиков базы данных большой популярностью пользуется реляционная система управления базами данных Access, входящая в состав...
-
Модель нарушителя - Разработка модели системы информационной безопасности на предприятии
Обеспечение защиты информационных активов университета специфично, так как это учреждение с непостоянной аудиторией. По причине того, что атаки могут...
-
Учебный процесс в ННГАСУ сопровождается значительной информационной базой, развитием компьютерного парка и внедрением в образовательный процесс...
-
Основные компоненты - История создания и развития автоматизированных информационных систем
Основными компонентами информационной технологии, используемой в экспертной системе, являются (рис. 3.2.2): интерфейс пользователя, база знаний,...
-
Наиболее распространенная форма - ЭВМ. Раньше чаще использовались вычислительные центры (ВЦ). Вычислительный центр - организуется и специализируется на...
-
Специфика информационного обеспечения САПР - Состав систем автоматизированного проектирования
В комплекс средств автоматизированного проектирования входит информационное обеспечение, которое представляет собой совокупность документов, описывающих...
-
Информационная система Lumesse ETWeb является системой, которая автоматизирует весь комплекс процессов управления персоналом. Важно отметить, что данная...
-
В настоящее время существует большое количество поисковых систем, но большинство из них основано на методе, в соответствии с которым документы...
-
Поисковые системы - Глобальная вычислительная сеть Internet
Основная задача Internet -- предоставление необходимой ин-формации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта...
-
Поиск нужной информации (создание запросов) - Разработка информационной системы "Гостиница"
В СУБД Microsoft Access 2007 можно создавать запросы для отображения требуемых полей из записей одной или нескольких таблиц. Для создания нового пустого...
Информационно-поисковые системы - Осуществление хранения и поиска документов