Общие сведения - Web-индексы

"Всемирная паутина" в Internet - это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту Сети зачастую приходится перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).

С начала 90-х годов интенсивно развиваются справочные службы Internet, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.

В универсальных службах используется обычный принцип поиска в неструктурированных документах - по ключевым словам, в специализированных - по контексту.

Ключевым словом документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа, выделяет область его поиска. Ключевые слова записываются с помощью специального языка управления запросами, например: "Бразилия + футбол + чемпионат".

Универсальная служба поиска (поисковая система) - это комплекс программ и мощных компьютеров, выполняющий следующие функции:

    1. Специальная программа (поисковый робот, паук, spider, crawler, bot) непрерывно просматривает страницы WWW, выбирает ключевые слова и составляет базу данных индексов. В эту базу включаются ключевые слова и адреса документов, в которых эти слова обнаружены (напомним, что индекс - это упорядоченный по ключевым словам набор указателей). Паук возвращается к узлу на регулярной основе, примерно каждый месяц или чаще, чтобы поискать изменения. 2. Web-сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе - поисковой машине. 3. Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющих условиям запроса (точнее, список ссылок на эти страницы) и возвращает его Web-серверу. 4. Web-сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.

Среди наиболее известных и мощных поисковых систем: Alta Vista (www. altavista. com), Infoseek (www. infoseek. com), Lycos (www. lycos. com), российская система Рамблер (www. rambler. ru) и другие.

Специализированные справочные службы (классификаторы) - это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов, тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной и систематизированной информацией о Сети. В классификаторах используется иерархическая (древовидная) организация информации. Это дает пользователю возможность вести просмотр, перемещаясь по иерархии тематических рубрик, и, постепенно сужая поле поиска до необходимых размеров.

Кроме того, многие сайты Internet располагают собственными механизмами поиска (в пределах данного сайта). В первую очередь это механизм контекстного поиска, а также специализированный поиск по фамилиям (например, персоны компьютерного бизнеса), товарам (на рекламных сайтах), фирмам и т. д. Некоторые полезные адреса конкретных информационных ресурсов приведены в следующей талице.

С точки зрения методологии стратегия работы современных поисковых серверов базируется на трех основных подходах:

    * создание Web-индексов (Web indexes), - алгоритм работы таких систем мы только что рассмотрели, * создание каталогов (Web directories), * "гибридный" метод, сочетающий в той или иной степени два первых подхода.

Кроме того, существует ряд дополнительных подходов к классификации информации: онлайновые справочники, системы на CD-ROM, различные желтые и белые страницы Internet и т. д. В Internet можно найти множество документов по вопросу классификации систем поиска, см. например, достаточно подробную статью на Www. josts. net/lusd/sewk. htm.

Все названные вопросы требуют дальнейшего рассмотрения и изучения, что является целью данной работы.

Похожие статьи




Общие сведения - Web-индексы

Предыдущая | Следующая