Поисковые системы - Глобальная вычислительная сеть Internet

Основная задача Internet -- предоставление необходимой ин-формации. Чтобы найти нужную информацию необходимо знать адрес Web-страницы, на которой эта информация находится. Лучше всего искать в Сети необходимую информацию с помо-щью поисковых систем. Поисковая система представляет собой специализированный Web-узел. Поисковые системы классифи-цируют но методам поиска.

Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т. е. каж-дый шаг поиска это выбор подраздела с белее конкретной тема-тикой искомой информации. На нижнем уровне поиска пользо-ватель получает относительно небольшой список ссылок на ис-комую информацию.

Поисковый индекс обеспечивает поиск по заданным ключе-вым словам. Обычно ключевые слова вводятся при заполнении специальной формы поиска, после чего нажимается кнопка "По-иск". В результате поиска формируется набор гиперссылок на Web-страницы, содержащий указанные термины. Обычно поис-ковые индексы выдают огромное количество искомых страниц. В этом списке представлены ссылки на различные Web-стра-ницы, причем ссылки располагаются по степени убывания встре-ченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те стра-ницы, которые нужно просмотреть. Некоторые системы состав-ляют список ссылок по степени свежести страниц, другие же -- по степени вероятности того, что данные страницы окажутся ис-комыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается искомое слово. Первы-ми в таком списке идут ссылки на те страницы, у которых клю-чевые слова встречаются уже в названии.

Поисковые каталоги предоставляют доступ к меньшему количеству страниц, чем поисковые индексы, но они точнее указывают на основные ресурсы Сети. Поэтому при первичном по-иске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые индексы. Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных метода.

Программа Internet Explorer 6.0 имеет специальные средства организации поиска без явного обращения к поисковым систе-мам. Можно получить доступ к одной из известных поисковых систем, просто щелкнув на кнопке "Поиск", слева появится окно поиска. Далее можно набрать ключевые слова для поиска и выб-рать поисковую систему. Результаты поиска будут отражены в правой части окна обозревателя. Если выбрать нужную ссылку, то в правом окне появится содержимое выбранной страницы. Чтобы скрыть окно поиска, необходимо щелкнуть на кнопке "Поиск" еще раз.

При работе с Internet Explorer можно проводить поиск прямо в поле "Адрес". Для этого в адресную строку вводиться слово или фраза для поиска. Под адресной строкой откроется окно со сло-вом "Поиск" и искомой фразой. Internet Explorer начнет поиск с использованием заранее определенной системы поиска; при этом кнопка "Поиск" на панели инструментов нажмется сама.

Можно осуществить поиск, нажав кнопку "Пуск" и выбрав опцию меню "Найти". Окно Internet Explorer откроется само с уже нажатой кнопкой "Поиск".

Если удалось найти то, что искали, но все же не совсем то, то в этом случае пригодится механизм связанных ссылок. Для любой Web-страницы можно просмотреть список ссылок, име-ющих к ней отношение, возможно, среди них окажется как раз то, что нужно. Чтобы просмотреть связанные ссылки, нужно сделать следующее. Необходимо выбрать в меню "Сервис" ко-манду "Показать связанные ссылки".

После этого на панели инструментов нажать кнопку "По-иск", и в левой части экрана появится окно, содержащее спи-сок ссылок, связанных с данной страницей. Нужно щелкнуть на одной из ссылок и просмотреть в правом окне соответству-ющую Web-страницу.

Чтобы скрыть окно поиска, необходимо щелкнуть еще раз на кнопке "Поиск"

3.1. Механизмы поиска

Поисковые системы обычно состоят из трех компонентов:

Агент (паук или кроулер), который перемещается по Сети и собирает информацию;

База данных, которая содержит всю информацию, собирае-мую пауками;

Поисковый механизм, который люди используют как интер-фейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые по-исковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.

Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Internet. Это специальные программы, которые занима-ются поиском страниц в Сети, извлекают гипертекстовые ссыл-ки на этих страницах и автоматически индексируют информа-цию, которую они находят для построения базы данных.

Каждый поисковый механизм имеет собственный набор пра-вил, определяющих, как собирать документы. Некоторые сле-дуют за каждой ссылкой на каждой найденной странице и за-тем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам муль-типликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просмат-ривать, прежде всего, наиболее популярные страницы.

Агенты -- самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выпол-нять даже транзакции от Вашего имени. Уже сейчас они могут искать сайты специфической тематики и возвращать списки сай-тов, отсортированных по их посещаемости. Агенты могут обра-батывать содержание документов, находить и индексировать дру-гие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже суще-ствующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных по-искового механизма.

Агенты извлекают и индексируют различные виды информа-ции. Некоторые, например, индексируют каждое отдельное сло-во во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и под-заголовки и так далее. Вид построенного индекса определяет, ка-кой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Internet и находить им формацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут опреде-лить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсыла-ется базе данных поискового механизма так же, как было опи-сано выше.

Общий поиск информации в Сети осуществляют програм-мы, известные как Пауки. Пауки сообщают о содержании най-денного документа, индексируют его и извлекают итоговую ин-формацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры Просматривают заголовки и возвращают только пер-вую ссылку.

Роботы Могут быть запрограммированы так, чтобы перехо-дить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, про-ходя по ссылкам, им нужны значительные ресурсы Сети. Одна-ко имеются методы, предназначенные для того, чтобы запре-тить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Люди могут помещать информацию прямо в индекс, запол-няя особую форму для того раздела, в который они хотели бы по-местить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Internet, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходи-ма. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информа-ции, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на ин-формации, указанной в заполненной форме, и выводят соот-ветствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов бу-дет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользова-тельскому запросу будут помещены первыми в списке. Различ-ные поисковые системы используют различные алгоритмы ран-жирования, однако, основные принципы определения релеван-тности следующие:

Количество слов запроса в текстовом содержимом документа.

Тэги, в которых эти слова располагаются.

Местоположение искомых слов в документе.

Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделав-шему запрос.

Различные поисковые механизмы также выбирают различ-ные способы показа полученного списка -- некоторые показы-вают только ссылки; другие выводят ссылки с первыми несколь-кими предложениями, содержащимися в документе или заголо-вок документа вместе со ссылкой.

Когда Вы щелкаете на ссылке к одному из документов, ко-торый вас интересует, этот документ запрашивается у того сер-вера, на котором он находится.

3.2. Сравнительный обзор поисковых систем. Структура запроса

В сети существуют различные способы поиска информации. Конечно же, если имеется справочник, в котором можно найти местонахождение интересующего вас источника конкретной ин-формации, то, без всякого сомнения, следует этим и воспользо-ваться. Однако, к сожалению, такие издания далеко не всегда доступны. Кроме того, сеть является постоянно обновляющейся системой и поэтому находится в курсе всего нового с помощи периодики, а тем более с помощью литературы, не всегда пред-ставляется возможным. Для поисковых целей в Internet суще-ствуют специальные поисковые машины, располагающие зна-чительными базами данных и имеющие связь с себе подобными.

Существенно полезными возможностями у них является на-личие системы поиска, которая строится по принципу: от об-щего -- к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, -- в зависимости от сер-висных услуг конкретной машины), а затем, с каждым новым поиском все более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены не-сколько основных поисковых систем, использование которых весьма эффективно.

Исторически сложилось, что первой такой поисковой машиной являлась Alta Vista, поэтому с нее и начнем рассмотрение.

AltaVista. Наиболее интересная возможность AltaVista -- это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологиче-ский словарь. Кроме всего прочего, при поиске в AltaVista мож-но задать имя поля, где должно встретиться слово. К сожале-нию, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Ре-ально эту систему можно отнести к системе с расширенным бу-левым поиском.

Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos произво-дит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. По-чти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релеван-тные документы. В списке против каждого документа указыва-ется его мера близости запросу, количество слов из запроса, по-павших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной.

Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения рас-ширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой "and" либо,"ог".

При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились и документе. При этом не производится нормали-зация лексики и не проводится анализ на "общие" слова. Хоро-шие результаты поиска получаются только тогда, когда пользо-ватель знает, что и базе данных Yahoo информация есть навер-няка. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

Open Text. Информационная система OpenText представляет собой самый коммерциализированный информационный про-дукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет про-вести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В дан-ном случае речь идет о расширенном поиске. При выдаче ре-зультатов сообщается степень соответствия документа запросу и размер документа.

Система позволяет также улучшить результаты поиска в сти-ле традиционного булевого поиска. OpenText можно было бы от-нести к разряду традиционных информационно-поисковых си-стем, если бы не механизм ранжирования.

Infoseek. Система Infoseek обладает довольно развитым ин-формационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" -- термин обязан быть в документе, и "--" -- термин должен отсутствовать в документе.

Кроме этого, Infoseek позволяет проводить то, что называет-ся контекстным поиском. Это значит, что, используя специаль-ную форму запроса, можно потребовать последовательной со-вместной встречаемости слов. Также можно указать, что неко-торые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.

Имеется возможность указания ключевых фраз, представля-ющих собой единое целое, вплоть до порядка слов. Ранжирова-ние при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания термином при по-иске.

WAIS. WAIS является одной из наиболее изощренных поис-ковых систем Internet. В ней не реализованы лишь поиск по не четким множествам и вероятностный поиск. В отличие от мно-гих поисковых машин, система позволяет строить не только вло-женные булевы запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и до-кумента, но и осуществлять коррекцию запроса по релевантно-сти. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных ин-дексов.

Rambler. Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах Рос-сии и стран СНГ.

Rambler обрабатывает ежесуточно не менее 500 тысяч поис-ковых запросов (в среднем-- 5 запросов в секунду), сканируя 48 тысяч Web-серверов и используя несколько одновременно ра-ботающих программ-роботов.

Запрос может состоять из одного или нескольких слов, раз-деленных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находят-ся только те документы, в которых встретились все введенные вами слова.

Чтобы найти документы, содержащие хотя бы одно слово из запроса, используется логическая связка "or" или выбирается на странице детального запроса: "Слова запроса: любое". Чтобы ис-ключить документы, содержащие те или иные слова, надо ука-зать на странице детального запроса: "Исключить документы, содержащие следующие слова...".

Все равно, с какой буквы написаны слова запроса: с боль-шой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы "понижаются".

Слова запроса могут быть соединены логическими связками "and", "or". Вместо связок (или в сочетании с ними) могут ис-пользоваться также символы "&;", "|".

Части запроса могут быть сгруппированы с помощью круг-лых скобок. Возможна многократная вложенность скобок в со-четании с логическими операторами.

Rambler умеет искать слова во всех формах (например, ами-нокислота, аминокислоты, аминокислотой и т. д.). Чтобы слово находилось по всех формах, перед ним надо поставить служеб-ный символ "#". В меню детального запроса такой режим мо-жет быть включен для всех слов: "Расширение запроса: все фор-мы слов". Служебный символ "@" перед словом позволяет на-ходить не только само это слово, но и однокоренные слова. В меню детального запроса символу "@" соответствует режим "Рас-ширение запроса: все однокоренные".

По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить "шум" в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить зап-рос, можно использовать метасимволы "*" и "?" для обозначе-ния произвольной части слова и произвольного символа.

Ограничить поиск частями документов, такими как назва-ние документа, его заголовок, URL и т. п., можно через меню детального запроса "Искать в...".

Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соот-ветствующий режим в меню детального запроса "Язык докумен-та...". По умолчанию поиск выполняется по документам на всех языках.

По умолчанию найденные документы сортируются по реле-вантности (соответствию запросу). Однако вы можете потребо-вать, чтобы вместо этого в начало списка были помещены са-мые свежие (или, наоборот, самые старые документы). Для это-го надо выбрать соответствующую установку в меню "Сортиро-вать по..." на странице детального запроса.

Вы можете также ограничить поиск документами, созданны-ми в определенный период времени: для этого необходимо на странице детального запроса указать "От даты... до даты...".

Можно потребовать, чтобы Rambler возвращал только те до-кументы, где слова из запроса находятся на минимальном рас-стоянии друг от друга.

Режим "Ограничить расстояние между словами" может быть включен в детальном запросе. Все перечисленные выше прави-ла могут быть использованы совместно друг с другом в необхо-димой вам последовательности.

По умолчанию результаты поиска выдаются порциями по 15 документов. Меню "Выдавать по..." на странице детального зап-роса позволяет увеличить это число до 30 или 50. Меню "Форма вывода..." позволяет получать описания документов с увеличен-ной или уменьшенной подробностью.

Яаndeх. Яаndeх ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Коллекция ссылок постоянно растет.

Яаndeх не требует от вас знания специальных команд для поиска. Достаточно набрать вопрос ("где найти дешевые компьютеры" или "нужны телефоны Москвы и Московской области"), и вы получите результат-- список страниц, где встречаются эти слова.

Независимо от того, в какой форме вы употребили слово, и запросе, поиск учитывает все его формы по правилам русского языка. Например, если задан запрос "идти", то в результате по-иска будут найдены ссылки на документы, содержащие слона "идти", "идет", "шел", "шла" и т. д. На запрос "окно" будет вы-дана информация, содержащая и слово "окон", а на запрос "от-зывали" -- документы, содержащие слово "отозвали".

При этом поиск не ограничен лишь словами или фразами. Яаndeх отыщет по названию Web-страницу компании или файл с нужной картинкой.

Aport. Обычно запрос представляет из себя просто одно или несколько слов.

По такому запросу находятся документы, в которых встреча-ются все слова запроса. Есть, правда, ограниченное число слов (союзы, предлоги и т. п.), которые в запросе игнорируются, так как не несут сами по себе смысловой нагрузки.

Например, по запросу: Яблоки на снегу Будут найдены все до-кументы, в которых встречаются одновременно дна слова: "яб-локо" и "снег". Где в пределах документа расположены слова, в какой грамматической форме они находятся -- не важно.

Стоит еще раз подчеркнуть важное и очень полезное свой-ство Апорта: независимо от того, в какой грамматической фор-ме вы пишите в запросе слово, оно находится в документах во всех своих формах. Например, по запросу: Человек шел Будут най-дены среди прочих и документы, содержащие текст "люди идут". Распознавание всех форм работает для обычных слов русского языка. Для экзотических слов, неологизмов и т. п. оно не прохо-дит. В этом случае может пригодиться оператор "*".

Например, вы хотите найти все, касающееся деятельности президента России, в том числе и документы, содержащие сло-во "ельцинизм". Воспользуйтесь запросом: Ельцин*. Он позво-лит вам найти то, что вы хотите (а также документы со словами Ельцинище, Ельцинцы/*/)/, Ельцененок И т. п.), поскольку звездочка заменяет собой любое число любых букв.

Вы можете искать документы не только по всему русскоязыч-ному Internet, но и но его части. Самый простой случай -- поиск по определенному серверу. Например: Url=www. intel. ru собака.

По данному запросу будут найдены все документы на серве-ре www.intel. ru, содержащие слово "собака". Возможно, вам ин-тересно, а что будет, если написать просто: Url=www. intel. ru

К Этом случае вы получите список всех документов, распо-ложенных на указанном вами сервере.

Вы можете ограничивать поиск и сильнее -- одним из ката-логов сервера. Например: Url=www. in! el. ru/sobaki/cen6epnap

По данному запросу документы, содержащие слово "сенбер-нар", будут искаться только в каталоге /sobaki (и его подкатало-гах) московского сервера корпорации Intel.

List. На главной странице в верхней ее части расположены ссылки на наиболее популярные проекты. Ниже, под логоти-пом каталога, поисковая форма. В правой колонке и нижней части страницы -- блоки самых актуальных новостей. Список ссылок на основные категории каталога занимает централь-ную часть. Цифры рядом с названием категории показывают количество сайтов, содержащихся в ней. Записанные мелким шрифтом заголовки отсылают при нажатии на подкатегории раздела.

Щелкнув по любому из названий, вы попадете в соответству-ющую рубрику и под логотипом List. ru увидите полный путь до нее, начиная с главной страницы. Каждый промежуточный уро-вень структуры доступен по отдельной ссылке. Поиск в катало-ге реализован таким образом, что в результате запроса могут быть найдены как отдельные сайты, так и рубрики.

Допускается использованием языка запросов Яаndeх. Распо-ложенная рядом с поисковой формой ссылка "Структура ката-лога" открывает в отдельном окне полный рубрикатор каталога. Реализована возможность перехода из рубрикатора в любую выб-ранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок.

Помеченные символом "@" приведут в подкатегории, струк-турно входящие в другие разделы, но содержащие близкую по содержанию информацию. Если Вы хорошо представляете, в ка-кой рубрике содержатся нужные ресурсы, лучше перейти в нуж-ную подкатегорию, воспользовавшись любым из предоставляемых средств навигации по каталогу. В противном случае можно искать их в полном списке.

Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях структуры, представлены и в рубриках. Показываемый ниже список ресурсов упорядочен и алфавитном порядке, но, выбрав соответствующую сортировку ("По времени добавления" или "По переходам"), можно просмотреть их по порядку добавления в каталог (начиная с самых "свежих") или в зависимости от популярности среди посетите-лей каталога. Ссылка с названия сайта открывает в отдельном окне его зарегистрированную в данной рубрике страницу. По-метки RUS и ENG означают наличие на сайте страниц, соот-ветственно на русском и английском языках.

Похожие статьи




Поисковые системы - Глобальная вычислительная сеть Internet

Предыдущая | Следующая