Черты, присущие профессиональному поиску
Итак, в отличие от ситуации, когда вы что-либо ищите для себя, профессиональный поиск предполагает исполнение некоторого заказа, с вытекающими отсюда обязательствами перед заказчиком. Эти обязательства и являются источником трех основных требований:
контроль полноты охвата ресурсов; контроль достоверности информации, полученной из Сети; высокая скорость проведения поиска;
Так, если вы выступаете в роли заказчика, то вправе потребовать от поисковика помимо собственно результатов, еще и некоторых гарантий по указанным выше пунктам. Такие гарантии, безусловно, может дать лишь человек, неплохо осведомленный о тонкостях распределения и движения информационных потоков в Интернете.
Целью настоящей и ближайших публикаций станет обсуждение тех возможностей, которыми располагает поисковик, чтобы добиться оптимальных показателей по полноте, достоверности и скорости выполнения поисковых работ. Попробуем теперь более предметно обозначить существующие проблемы
Контроль полноты охвата ресурсов является закономерным требованием, если вы решаете задачу, противоположную той, что звучит как "найти хоть что-нибудь".
Полномасштабный сбор информации из Интернета по какому-либо вопросу во многих случаях выводит поисковика за пределы широко освоенного Web-пространства, в лоно telnet-доступных баз данных, региональных телеконференций и других хранилищ информации. Знание всех основных существующих на сегодняшний день типов ресурсов Сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа становится необходимым условием успешного планирования и проведения поисковых работ.
Контроль достоверности информации, полученной из Сети в результате поиска, разумеется, может производиться разными средствами. Кратко остановимся здесь на возможностях, которые предоставляет сама Сеть. Так, традиционными способами проверки являются локализация источников информации, альтернативных данному; сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга узла, на котором он находится средствами поисковых систем; получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов; анализ отдельных элементов организации узла с целью оценки квалификации специалистов, его поддерживающих и другие.
Скорость проведения поиска в Сети, если не принимать во внимание технические характеристики подключения пользователя, зависит в основном от двух факторов. Это грамотное планирование поисковой процедуры и навыки работы с ресурсом выбранного типа. Под составлением плана поисковых работ понимается выбор поисковых сервисов и инструментов, отвечающих специфике задачи и, что крайне важно, последовательности их применения в зависимости от ожидаемой результативности. После получения доступа к соответствующему ресурсу на передний край выдвигается умение быстро разобраться в его структуре и способах навигации. Моторика выполнения действий, умелое совмещение поисковых средств и возможностей обработки информации локальной клиентской программы и сервера для поисковика являются необходимыми навыками.
Материал этой статьи будет посвящен в основном вопросу полноты проводимого поиска.
Глобальные поисковые машины WWW: тонкая настройка.
После знакомства с несколькими глобальными поисковыми машинами Сети, пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. На основе каких же мотивов делается такой выбор? Рейтинги популярности поисковых систем по опросам читателей, публикуемые такими известными изданиями как PC Magazine, Internet World и другими, оставляют нелучшее впечатление. Эмоции торжествуют над осознанием реальных возможностей, маркетинговые решения над техническими. Так, каталог Yahoo с легкостью одерживает победу над индексами HotBot и Lycos, Excite и WebCrawler - над AltaVista, а одна из крупнейших поисковых машин Northern Light какое-то время безоговорочно проигрывает почти всем.
Чтобы грамотно распорядиться таким важным поисковым инструментом как автоматический индекс, необходимо учитывать два определяющих аспекта его работы. Первый- это индексирование программой-роботом содержимого Web-страниц. Адрес очередного документа робот узнает либо от автора ресурса, который представил его в систему, либо из гиперссылки, найденной им на уже пройденной странице. Подробнее о проблемах индексирования можно прочитать в КомпьютерПресс, N5'99, c.114. Второй аспект - обработка запросов пользователей по ключевым словам на основе синтаксиса поискового языка системы. Обе эти фазы работы поисковой машины тесно связаны - чем больше информации о ресурсе извлечено при сканировании, тем потенциально шире возможности поиска. Тот факт, что каждая система в обоих случаях имеет свою специфику, может быть использован для тонкой настройки на решение поисковой задачи.
Поскольку индексы сканируют единое информационное поле - WWW, то в них может находиться информация об одних и тех же ресурсах. Однако время, затраченное на получение результата при поиске, может существенно зависеть от выбранной поисковой машины. Кроме того, как будет показано ниже, использование всего одной поисковой системы не дает никаких гарантий по полноте охваченных ресурсов.
Приведем несколько ссылок, которые указывают на страницы, содержащие крупнейшие в Сети перечни поисковых систем
http://dir.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Search_Engines/
http://dmoz.org/Computers/Internet/WWW/Search_Engines/
http://www.webtaxi.com/
Некоторые важные для обсуждения характеристики лидирующих поисковых машин, связанные как с фазой индексирования, так и с фазой обработки запросов, представлены в таблице 1.
Размер индекса в млн. документов | 150 | 55 | 110 | 45 | 50 | 140 | 2 |
Скорость индексирования, документов в день | 10 млн | 3 млн | до 10 млн | Нет данных | от 6 до 10 млн | более 3 млн | Нет данных |
Время регистрации | 1-2 дня | 2 недели | 2 недели | 2 дня | 2-3 недели | 2-4 недели | 2 недели |
Полная глубина индексирования | Да | Нет | Да | Нет | Нет | Да | Нет |
Полная поддержка фреймов | Да | Нет | Нет | Нет | Нет | Да | Нет |
Закрытые паролем узлы | Да | Нет | Да | Нет | Нет | Нет | Нет |
Учет частоты обновления | Да | Нет | Нет | Да | Нет | Нет | Нет |
Поиск по домену | Да | Нет | Да | Да | Да | Нет | Нет |
Поиск по URL | Да | Нет | Нет | Да | Да | Да | Нет |
Учет регистра | Да | Нет | Частично | Да | Нет | Частично | Нет |
Поиск по заголовку | Да | Нет | Да | Да | Да | Да | Нет |
Использование маски "*" | Да | Нет | Да | Нет | Нет | Да | Нет |
Поддержка NEAR и его ширина | 10 слов | Нет | Нет | Нет | 25 слов | Нет | 2 слова |
Поддержка кириллицы | Да | Нет | Нет | Да | Да | Да | Нет |
Начнем с особенностей индексирования. Большой объем индекса, безусловно, выглядит как разумный аргумент при выборе поисковой системы. Однако он далеко не единственный. Любые начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если нас интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе.
Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс как Excite может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла.
Из трех крупнейших конкурирующих индексов AltaVista, Northern Light и HotBot у последнего есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к двум первым.
Нередко разработчики коммерческих узлов закрывают под пароль доступ к материалам сайта. Заинтересованные тем не менее в рекламе, они часто прибегают к возможности открыть доступ к их ресурсам роботам поисковых систем. Из таблицы видно, что только два индекса корректно работают с закрытами узлами.
Таким образом, при поиске информации, которая потенциально является продаваемой, их применение обязательно.
Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например, новостей.
В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение.
Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая казалось бы незначительная деталь как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).
Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать. Название же компании из двух слов, например, American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос
title:"American Cybernetics" является наиболее эффективным. Ясно, что лидеры некоторых опросов - поисковые службы Excite или WebCrawler выглядят здесь несостоятельными.
Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа "термин_1 NEAR термин_2" откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, неодинаковой для разных систем (см. таблицу). Разницу в интерпретации оператора NEAR можно тонко использовать при поиске.
Еще одно замечание необходимо сделать о возможности "теневой" профилизации глобальных поисковых машин. Чисто технические особенности работы сервиса могут спровоцировать увеличение доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска. Существует ли такой крен в каждом конкретном случае выясняется с помощью тестовых запросов.
Разумеется, исчерпывающий сравнительный анализ даже всего семи поисковых систем выходит за рамки одной статьи. Более важная задача автору виделась в том, чтобы обозначить общий подход к проблеме выбора поискового инструмента на основе детального анализа его возможностей. Полезно отметить, что обычно поисковые сервера разделяют интерфейс для ввода запросов на "простой" и "расширенный" (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в "расширенном" интерфейсе, и именно с него стоит начинать знакомство с любой новой для себя поисковой машиной.
В целом нетрудно видеть, что борьба за глобальное лидерство разворачивается между тремя наиболее крупными поисковыми системами AltaVista, HotBot и Northern Light .
Еще два года назад трудно было себе представить, что первенство AltaVista кто-то сможет оспорить. Казалось бы, что с течением времени соперничать с гигантом становится все труднее.Однако в 1998 году к лидеру заметно приблизился HotBot, а нынешний год отмечен скандальными заявлениями разработчиков Northern Light о том, что индекс этой системы является самым крупным в Сети. Действительно, невероятный скачок индекса Northern Light от 67 млн. документов по данным прошлого года до нынешних 140 млн. говорит о том, что вся борьба еще впереди. Разница в объеме индексов этой тройки при достаточно большом количестве нюансов его определения не настолько значительна, чтобы быть принципиальной. Более важно то, что соперничество систем способствует развитию индивидуальности каждой из них.
AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим однако специального изучения. Но он того стоит. Посмотрите, например, как изящно выглядит запрос на получение электронных текстов Джека Лондона с какого-либо нерусского сервера.
(url:etext) and text:(Jack near London) and not (text:(city or capital) or domain:ru)
Запрос тут же отсекает нерелевантную информацию о столице Великобритании.
Другая черта AltaVista - это многоязыковая поддержка индекса и возможность перевода в режиме on-line текста Web-страницы c распространенных европейских языков на английский.
HotBot отличает от AltaVista шаблонный и поэтому более простой подход к построению запроса, а также богатый набор фильтров для поиска специфических объектов, таких как ActiveX,VRML, VB Script и других.
Northern Light в этом отношении имеет достаточно стандартный набор функций. Система пытается заработать очки на сопровождении уникальной коллекции ссылок (более 5 тысяч записей) в основном на статьи из периодических изданий. Поддержка индексом кириллицы делает его вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Яндекс и Апорт при русскоязычном поиске.
Сегодня при решении поисковых задач возрастает роль чувствительности поисковых систем к закрытым форматам хранения данных. Речь идет о тех форматах, внутренняя структура которых в отличие, например, от Web-страниц, закрыта от проникновения сканирующих программ. Файлы мультимедиа, заархивированные данные и PDF -файлы могут оказаться ничуть не менее полезными, чем гипертекстовые данные.
Если цель поиска с самого начала связана с одним из таких форматов, то целесообразно использовать глобальные системы с поддержкой соответствующих фильтров (например, Lycos, HotBot) или специализированные системы.
Контроль полноты охвата ресурсов. Типы ресурсов Интернет.
Большинство пользователей, пришедших в Интернет за последние один-два года отождествляют его со Всемирной Паутиной WWW. И дело даже не в том, что им ничего неизвестно о существовании в мультипротокольной среде Сети ресурсов других типов. Как правило, эти сведения воспринимаются ими скорее как признак эрудиции, чем как практически полезная вещь. Действительно, информационный объем Web-пространства удовлетворяет многих пользователей. Однако, как только поиск ставится на профессиональную основу и заставляет нести ответственность за выполненную работу контроль за полнотой охвата ресурсов выдвигается на передний план. Можете ли вы гарантировать, что эксперт, выполнивший поисковые работы после вас, не обнаружит в Сети ничего реально значимого по заданному вопросу, что уже находилось там на момент ваших действий? Автору известен случай, когда сведения, найденные в нужный момент в группах новостей телеконференций до какой-то степени изменили судьбу целой компании, увеличив на порядок доход от планируемой накануне сделки.
Так или иначе, сегодня информация в Интернете оказывается доступной из источников разного типа. Планировать поиск без полного представления об их спектре и особенностях функционирования невозможно. Перечень основных типов ресурсов, который можно использовать как карту при планировании поисковой процедуры, приведен на рис.1. Фактически вопрос ставится более широко - об основных способах представления, передачи и обработки информации в Сети.
электронная почта и почтовые роботы; глобальная система телеконференций Usenet, региональные и специализированные телеконференции; списки рассылки; он-лайновые средства коммуникации пользователей; системы поиска людей и организаций; базы данных Hytelnet; система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата; базы данных Gopher и поисковая система Veronica; гипертекстовая информационная система World Wide Web (WWW); каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW); поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW); баннерные системы (в среде WWW); активные информационные каналы (в среде WWW); |
Рис.1. Основные информационные и коммуникационные ресурсы Интернета
Особенности доступа к ресурсам указанного типа обсуждаются во многих руководствах. Полезный материал на этот счет содержится также во втором номере журнала КомпьютерПресс за этот год. Ограничимся здесь краткой характеристикой каждого типа, акцентируя внимание на той нагрузке, которую может нести на себе ресурс при проведении поиска в Сети.
Электронная почта и почтовые роботы. Адрес электронной почты отдельного лица или организации традиционно используются для идентификации владельца. В коммуникационных ресурсах Сети - он-лайновых средствах коммуникации пользователей и системе телеконференций нередко он оказывается необходимым атрибутом каждого участника. Специальная URL-схема mailto позволяет вставлять в Web-страницу гиперссылку на е-mail, автоматически открывающую почтового клиента. В этом виде она широко применяется в Паутине. Сами адреса при этом свободно индексируются поисковыми системами и доступны для поиска через поисковые машины общего назначения. AltaVista, например, показывает, что адреса электронной почты встречаются почти на 100 миллионах Web-страниц из 150 миллионов заиндексированных ей документов.
Адреса е-mail активно накапливаются и в специальных системах поиска людей и организаций, о которых пойдет речь ниже. Серьезное неудобство для поиска по e-mail составляет то, что при получении адреса допускается регистрации пользователя под псевдонимом. Эта практика особенно широко распространена на серверах, предоствляющих бесплатные почтовые ящики.
Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им по электронной почте. Их основное назначение -пересылка данных по запросу в случае, когда те не доступны иным способом, а также как альтернатива работы в режиме on-line с каким-либо из известных ресурсов, например, ftp-архивами. Адрес почтового робота имеет обычный формат, например, mailserv@turbo.nsk.su (файловый сервер Новосибирского узла TURBO). Справка о перечне допустимых команд обычно высылается роботами на адрес пользователя в ответ на сообщение с пустым полем subject и единственным словом help, набранном в теле сообщения с первой позиции. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.
Глобальная система телеконференций Usenet, региональные и специализированные телеконференции. Система построена по принципу электронных досок объявлений, когда пользователь может разместить свою информацию в одной из тематических групп новостей. Затем эта информация передается пользователям, которые подписаны на данную группу. Полное число групп новостей Usenet превышает 20 тысяч и сведения о них можно найти, например, на Yahoo. Все они одновременно не поддерживаются ни одним сервером, так что труднее бывает отыскать не название соответствующей группы, а сервер телеконференций, с которого ее можно загрузить. Usenet - ключевое слово именно для глобальной системы телеконференций. Региональные и специализированные системы также имеют распространение. Ресурс наиболее значим для быстрого накопления информации по узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.
Несколько примеров из практики. Один из референтов получил задание обеспечить "техническую" сторону пребывания делегации российской компании в Лондоне. Стандартный набор сведений, необходимых в этом случае - транспорт, отель, погода, последние городские новости, а также личные пожелания участников командировки. Большая часть информации была взята с Web-узлов, локализованных с помощью поисковых систем Yahoo и AltaVista. Тем не менее на ряд частных вопросов, таких как рента автомобиля и отдельные маршруты городского транспорта Лондона, ответов в Web-пространстве не существовало. С помощью сервера Deja News (http://wmod.dejanews.com), являющимся Web-шлюзом к системе телеконференций, референт разыскал две британские региональные группы новостей - uk.transport.london и uk.local.london. Благодаря обаянию, с которым он изложил свою просьбу, вся необходимая информация была получена в течение одного дня.
Еще один поисковик столкнулся с проблемами, возникшими у офис-менеджера при конвертировании документов в текстовом процессоре Microsoft Word97. Автор посоветовал ему обратиться на сервер телеконференций msnews.microsoft.com компании Microsoft и задать при организации подписки поиск русскоязычной группы новостей по ключевому слову "word"в ее названии. Ответ на все вопросы был получен в течение двух дней.
Списки рассылки подразумевают более или менее систематическую рассылку собщений информации по электронной почте. Если пользователь сам может поместить информацию в список рассылки, то это начинает напоминать систему телеконференции, однако не требует специального клиента. Небольших по охвату адресов узкоспециальных или рекламных списков рассылки в Сети насчитывается огромное количество. Здесь стоит обратить внимание на те, авторитет которых получил международное признание. Внушительная коллекция почтовых списков, где их несколько тысяч, собрана на узле http://www.NeoSoft.com/internet/paml/. Там же присутствуют указатели на другие списки списков. По адресу http://www.relc.com/tech/all/list.html.ru можно найти страницу, содержащую перечень наиболее известных российских списков рассылки. Если не говорить о каких-то специальных интересах, то они необходимы поисковику, главным образом, для того, чтобы быть к курсе последних событий, происходящих в жизни Интернета,. Владение сетевой лексикой по широкому спектру тем и осведомленность о крупнейших проектах, реализуемых в Сети, которые можно почерпнуть из списков рассылки, позволяют более результативно строить поисковые запросы.
Он-лайновые средства коммуникации пользователей (chat, ICQ и другие) предполагают возможность обмена информацией между двумя или большим количеством пользователей Сети в режиме реального времени через посредство специального чат-сервера . Частью такого обмена может становиться текстовый диалог, передача графики прямо в процессе ее создания, голосовая и видео связь, обмен файлами. Долгое время ресурсы этого типа крайне редко использовались в решении поиковых задач, однако ситуацию изменило появление в 1996 году нового сервиса этого типа, а именно службы ICQ, известной среди российских пользователей как "Аська" (http://www.icq.com). В отличие от существовавших ранее чатов, где регистрация участников, как правило, носила анонимный характер и действовала лишь на протяжении сеанса связи, разработчики ICQ предложили каждому пользователю регистрационный номер-идентификатор, который сохранялся бы за ним постоянно. Это решение имело грандиозные последствия в области компьютерного общения людей. Уникальный ICQ-номер грозит появиться на визитных карточках рядом с телефоном, адресом электронной почты и домашней страницей. При поиске людей и организаций можно с успехом использовать поисковую службу ICQ, которая становится доступной сразу после установки ICQ-клиента на компьютер.
Еще несколько слов о чат-серверах. Как правило, некоторый их перечень уже зашит в используемую клиентскую программу, как, например, в программе Microsoft NetMeeting.
В регистрационных списках чатов обычно присутсвуют сведения о месте проживания участников, и они редко указываются неверно. Автора этой статьи чат-ресурсы даже в своем анонимном варианте не раз привлекали тем, что позволяли получить информацию из первых рук от представителей конкретного государства, региона и города планеты.
Системы поиска людей и организаций в современной Сети характеризуются двумя важными моментами: большинство этих ресурсов уже перенесено на Web-сервера и все более широкое присутствие получает в них информация о людях и организациях, которые не имеют прямого или вообще никакого отношения к Интернету. С последним утверждением связаны известные факты появления в Сети телефонных, адресных и других баз данных как отдельных организаций, так и целых регионов. Тем не менее такой чисто сетевой идентификатор пользователя как адрес e-mail остается доминирующим поисковым атрибутом для многих сервисов этого типа. Источником пополнения их баз данных становятся материалы телеконференций, Web-сервера, а также самостоятельная регистрация пользователей. К ним добавляются системы, специализирующиеся на поиске, например, по номеру ICQ (см. выше) или домашних страниц пользователей (служба Ahoy!, URL http://www.cs.washington.edu/research/ahoy/). Наряду c переориентированием сервисов под WWW в Сети продолжает работать одна из самых старых поисковых служб подобного типа- Whois, доступная по протоколу telnet с сервера whois.internic.net после входа по login: whois.
Часто возникают попытки выяснить рейтинг поисковых сервисов этого назначения. Так, по результатам исследований журнала PC Magazin (http://www.zdnet.com/pcmag) наибольшей популярностью в Сети среди пользователей Европы и Северной Америки пользуется служба поиска адресов электронной почты Four11 (http://www.four11.com), расположенная в портале Yahoo. Однако практика показывает, что начало поиска именно с нее совершенно не гарантирует успеха. Все эти службы имеют один серьезный недостаток - они не представляют собой единую кем-либо администрируемую систему, а являются лишь хаотически с точки зрения стороннего наблюдателя пополняемым набором информационных узлов. Следствием этого является то, что грамотно спланировать поисковую процедуру и расставить приоритеты в поиске отдельного лица становится крайне сложно. В некоторых случаях намного эффективней прибегнуть к поиску человека по его следам в Сети - публикациям, месту службы и т.п. с использованием поисковых систем общего назначения.
Базы данных Hytelnet, с доступные по протоколу telnet в ряде случаев представляют собой совершенно уникальную информацию, прежде всего по библиотечным каталогам европейских и американских университетов, а также государственных учреждений. Наиболее внушительный перечень баз данных этого типа, превышающий 1600 единиц можно найти на Web-сервере по адресу http://www.lights.com/hytelnet/. Каждая из них обладает оригинальной системой навигации и поиска, реализуемой через команды, которые вводятся с клавиатуры в алфавитно-цифровом режиме. Пример подобного интерфейса, с которым не знакомо большинство нынешних пользователей Сети приведен на рис.2.
Рис.2. Пример интерфейса, доступной по протоколу telnet базы данных .
Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата. Ресурсы этого типа не отступили так безоговорочно под натиском Web-технологий, как большинство остальных. Одна из причин в огромном количестве информации, накопленной в ftp-архивах за десятилетия эксплуатации компьютерных систем, которая по-прежнему ценна для специалистов. Социального заказа на ее перенос в Web-пространство в полном объеме не существует. Другая причина кроется в простоте доступа, навигации и передачи файлов по ftp. Так или иначе сегодня ftp-ресурсы востребованы и даже характеризуются развитием не только своей единственной глобальной поисковой системы Archie (адрес одного из стабильно доступных Web-шлюзов к ней - http://ftpsearch.ntnu.no), но и региональных систем, в частности российской - http://ftpsearch.city.ru , охватывающей более 2000 серверов.
Ftp-архивы - это в первую очередь источники программного обеспечения, успешно конкурирующие с Web-узлами, которые специализируются на продаже и представлении коллекций программ. В отличие от Web-узлов на них гораздо чаще можно столкнуться с нарушением авторских прав в виде пиратских копий программ и отдельных материалов, продаваемых на других узлах за деньги. Как следствие теневых сторон ftp-сервиса- опасность заражения вирусом из непроверенного источника. Поиски какой же информации стоит начинать с поисковой системы ftp? Универсальный ответ прост: поскольку ключевым словом при оформлении запроса является текст, входящий в название файла или каталога на ftp-сервере, то наибольшего успеха можно добиться в поиске информации, которая, будучи оформлена в виде файла, либо уже имеет определенное кем-либо имя, либо существует реальная возможность его угадать. Известных автору случаев делового применения ftp-поиска немало. Один из них следующий. Поисковик , разыскивающий один из американских стандартов ASTM по материаловедению с помощью поисковой системы HotBot быстро локализовал головной Web-сервер. Там ему удалось выяснить точное название стандарта. Полное описание стандарта предоставлялось за плату, а краткая аннотация - бесплатно. По техническим причинам аннотация на сервере была не доступна. Человек принял решение исследовать ftp-архивы с помощью поисковой системы и использовать алфавитно-цифровую последовательность, кодирующую название материала. Вскоре была найдена версия стандарта, близкая к полной, что исчерпало проблему. Достоверность информации вызывала у поисковика некоторые сомнения, однако была легко установлена специалистами.
Базы данных Gopher и поисковая система Veronica, сканирующая ресурсы Gopher-пространства на текущий момент перестали играть сколько-нибудь существенную роль в информационном поле Интернета. Тем не менее мать Гоферов всего мира -сервер, на котором зарегистрировано большинство gopher-серверов Сети (gopher://gopher2.tc.umn.edu), остается в рабочем состоянии и по сей день. Выйти на тот или иной gopher-сервер случается и через коллекции ссылок на Web-страницах, и через "бумажные" Желтые страницы. Как правило, если gopher-сервер еще работает, то в одном из файлов на нем указан адрес Web-узла, на который перенесена информация.
Гипертекстовая информационная система World Wide Web (WWW) и ее технологии на сегодняшний день наиболее значительны в Сети и продолжают свой подъем. По своей навигационной картине WWW фактически скопировала Gopher-ресурсы, но следствия одной мелкой детали, мало кто мог предугадать. Эта деталь - использование Web-страницы как легко создаваемого составного объекта, в тело которого монтируется более простые объекты, предназначенные для одновременного отображения. То, что сегодня в списке последних присутствуют текст, гиперссылки, графика, мультимедиа, программный код, диалоговые формы и многое другое в конечном итоге и предопределило широкое коммерческое использование WWW. Паутина заставила поисковые системы Web-пространства тонко подстроиться под себя и фактически обозначила ключевую тендецию их развития. Речь идет с одной стороны о том, что при индексировании ресурсов все более детальной проработке поисковыми системами подвергаются поля Web-страниц, формируемые контейнерами языка HTML. С другой стороны интенсивно развиваются те элементы информационно-поисковых языков, которые поддерживают поиск внутри этих полей. Сегодня можно констатировать глубокую интеграцию поисковых систем и ресурсов WWW на базе единой технологии. Кроме того чудовищный объем информационной базы WWW впервые с особой остротой поставил вопрос о необходимости параллельного существования целого ряда идентичных поисковых сервисов, обслуживающих интересы пользователей.
Каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW); представляют собой размещаемые в Сети базы данных с адресами ресурсов и самым разным масштабом накопленной информации и охватом тематики. Обычно они имеют иерархическую структуру, перемещаясь по которой, можно локализовать нужный объект. Скорость накопления информации такими системами оказывается сравнительно низкой, поскольку в классификации ресурсов предполагается непосредственное участие человека. Для поисковика получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности. При решении более или менее стандартной поисковой задачи именно каталог, а не поисковая машина оказываются стартовой площадкой для начала поиска.
Поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW) представляют собой мощные информационно-поисковые системы, размещаемые на серверах свободного доступа. Их специальные программы-роботы, или пауки, в автоматическом режиме непрерывно сканируют информацию Сети на основе заданных алгоритмов, проводя индексацию документов. В последующем на основе созданных индексных баз данных поисковые машины предоставляют пользователю доступ к распределенной на узлах Сети информации. Это реализуется через выполнение поисковых запросов в рамках соответсвующего интерфейса. Последние исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista, или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной Паутины отдельной такой системой не превышает 30%. Планирование поисковой процедуры в пространстве WWW является нетривиальным, и его,безусловно, следует рассмотреть отдельно.
Баннерные системы (в среде WWW) предполагают различные варианты размещения специальных объектов - баннеров, обычно небольших графических изображений с рекламной целью на Web-узле , принимающем рекламу. Баннеры отсылают пользователя по гиперссылке на сервер рекламодателя и зачастую могут не иметь вообще никакого отношения к основному содержимому страницы. Баннеры не используются напрямую при проведении поиска, но являются неплохими индикаторами состояния информационного рынка Сети.
Активные информационные каналы (в среде WWW) представляют собой специализированные Web-сервера, предназначенные для поступления данных прямо на рабочее место пользователя. Ресурсы этого типа принято связывать с push-технологией (технология проталкивания информации). Фактически активный Web-канал является информационным источником периодически обновляемых данных. Можно как подписаться на канал, так и остановить подписку, что многим напоминает работу со списками рассылки. Методика поддержки каналов основными на сегодняшний день браузерами Netscape Communicator и Internet Explorer оказывается различной. С информацией каналов после ее обновления можно позднее ознакомиться в автономном режиме. Сама технология не получила ожидаемого широкого распространения и в контексте проблемы поиска не играет заметной роли.
Метапоисковые системы
Метапоисковая система может быть реализована как в самой Сети, например, на Telnet- или Web-доступном узле (см. ссылки в следующем разделе статьи), так и в виде локальной клиентской программы (www.listsoft.ru, раздел "Программы-Поиск". Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на автономные ИПС и возвращает результаты поиска.
Одно из назначений метапоискового сервиса при поиске - тестирование Сети на предмет информации, релевантной запросу. Метасистемы позволяют также оценить результативность применения отдельных ИПС для решения конкретной поисковой задачи. К сожалению, для предметного и тонкого поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов мета-шлюза располагает лишь самыми общими для большинства ИПС, и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP в этом отношении открывает новые перспективы в развитии метасистем, поскольку стандартизация ИПС существенно расширит возможности шлюзования.
Отметим, что метасистема допускает передачу запросов не только на автоматические индексы, но и в те каталоги, которые сопровождаются локальной поисковой машиной
Среди довольно легковесных продуктов целого семейства локальных клиентов метапоиска, выделяется программа, известная под именем Inforia Quest 98 (рис.3).
Рис.3 Локальный метапоисковый клиент Inforia Quest 98.
Пробный вариант ее последней версии можно найти на узле http://www.inforia.com/quest.
По итогам прошлого года она была признана одной из лучших в своем классе и претендует на роль профессионального поискового инструмента.
Беглый взгляд на возможности этой программы позволяет обозначить черты метапоисковых клиентов самого последнего поколения.
Прежде всего, программа интегрирует в себе не только поисковые сервисы Web-пространства, но и другие поля информационного сектора Сети, а именно: файловые архивы FTP и систему телеконференций.
При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами, включая и специализированные.
Отчетная информация о найденных ресурсах отображается в рабочей области программы. Ссылки, дублирующие уже найденные, системой исключаются. Полученные адреса немедленно проверяются на доступность. Есть возможность выбрать набор необходимых поисковых систем из полного списка, установить время проведения поиска и ограничение на число ссылок, полученных от каждого поискового сервера. Сам перечень ИПС, с которыми взаимодействует программа обновляется автоматически с сервера разработчика при работе в Сети.
Большим завоеванием программы является то, что она поддерживает некоторое подобие поискового языка: работают два логических оператора и поиск по фразам.
Однако всякий раз, когда язык метасистемы не в состоянии обеспечить точное построение поискового запроса, приходится прибегать к автономным сервисам Сети, в первую очередь к поисковым машинам WWW.
Планирование поисковой процедуры.
Трудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск - все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании.
Рис. 4. Изменение числа заиндекированных на май 1999 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5- Lycos, 6- Infoseek, 7- WebCrawler (по материалам Science magazine и Forrester Research)
Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Из гистораммы на рис.4 следует, что доля документов, захваченная отдельным индексом значительно упала и не превышает 30 процентов. Отсюда ясно, что только применение совокупности поисковых машин, способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска.
Тем не менее независимо от характера задачи, непродуманное метание от одного поискового сервиса к другому существенно увеличивает время получения результата.
Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами поисковой процедуры.
Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узко специальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости - и на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса - редких словах, возможно, названий
и фамилий, тесно связанных c проблемой. Желательно также предвидеть,
какие из выбранных терминов, могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети.
Основная задача этой фазы работы - преломить проблему через призму Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых.
Довольно трудно, например, догадаться, что появление огромного количества англоязычных электронных текстов литературных произведений в Сети связано с именем сетевого проекта "Gutenberg". Или что название операционной системы OS/2 допускает два вида написания - "OS/2" и "OS2". Одно неловкое движение - и десятки тысяч полезных документов выпадают из поля зрения.
Рейтинги потенциальных поставщиков нужной информации в обычной жизни и в электронном пространстве также могут существенно отличаться. В этой связи возможно, одно из главных положений, которое должно привлекать заказчика поисковых работ в Сети - это присутствие в ней совершенно уникальных источников,
не допускаемых или неконкурентных на традиционном рынке информации. При поиске в Сети заметную роль начинает играть видение психологического портрета поставщика информации, к чертам которого могут проявлять чувствительность поисковые инструменты.
Прецедент существования в Сети необходимых данных лучше всего найти в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, "любительских" задач уровня "погода в Сочи" или "карта метро Рима" каталог может быть более быстрым источником получения информации, чем на автоматический индекс и при больших гарантиях достоверности.
После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных нами ранее.
Используются тестовые запросы из 1-2 ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.
В заключение отметим, что в особенности для задачи сбора информации из Сети сегодня заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет в сжатые сроки форсировать поисковую кампанию.
Поиск информации в Интернете: подводные камни
Михаил Талантов, опубликована в КомпьютерПресс (), N 9 (1999)
Этой публикацией мы продолжаем разговор о проблемах поиска в сети Интернет, с которыми неизбежно приходится сталкиваться пользователям - и рядовым, и поисковикам-профессионалам. Те из этих проблем, которые не лежат на поверхности, нередко дают о себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен, и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы (ИПС)? Ответ довольно прост: отсутствие исчерпывающей информации о ней со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми "недокументированными" особенностями. Казалось бы, что пользователю необходимо не так уж много сведений, а именно: 1) как происходит наполнение базы данных ИПС и каков ее объем; 2) полный спектр возможностей поискового языка системы; 3) основные особенности представления результатов поиска, прежде всего, алгоритма ранжирования записей из списка отклика на поисковый запрос. Увы, источником этой информации обычно является не документ, доступный с головной страницы поискового сервера, а разбросанные по Сети, книгам и компьютерным журналам публикации отдельных авторов. Причинами такого положения дел, по-видимому, оказывается не только небрежность разработчика, но и фактор, именуемый маркетинговой политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о себе не всегда положительно сказывается на ее рейтинге. Тем не менее взять ситуацию под контроль в ряде случаях оказывается под силу пользователю. Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе с ИПС, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.
Проблема N 1: наполнение базы данных
Любая поисковая машина или каталог регламентируют свою работу по сбору данных из Сети. Очевидно, что формирование поискового образа информационного объекта, или, другими словами, его "отражения" в "зеркале" поисковой системы неизбежно связано с некоторыми искажениями. По сути главным при этом становится вопрос о том алгоритме, на основе которого создается поисковый образ. Объектом-оригиналом при этом может стать как Web-страница, так и файл "закрытого" формата, который не доступен для проникновения сканирующих программ ИПС, например, видео или аудио-запись. Определенный шаблон обычно используется и при построении поискового образа для физического лица или компании в момент их регистрации в поисковой службе. Отсечение, фильтрация информации от оригинала свойственны всем без исключения ИПС, в том числе и полнотекстовым системам глобального охвата и самого общего назначения.
Фильтрация может регламентироваться как на техническом, так и на лингвистическом уровне, однако задача у нее одна -при минимальных материальных затратах добиться реальной эффективности поиска.
В связи с этим на практике часто возникает вопрос - что становится причиной неудачного поиска: отсутствие ли в Сети с высокой вероятностью на данный момент времени информации, релевантной запросу, или то, что эта информация потенциально не доступна для рассматриваемой поисковой системы. "Подводным камнем" этот аспект становится тогда, когда получен ненулевой отклик на поисковый запрос, а доля недополученных данных оказывается неконтролируемой. Некоторый свет на особенности работы глобальных ИПС проливает сравнительный анализ их возможностей, который был приведен в прошлом выпуске. Однако, если детали алгоритма фильтрации не известны, наиболее чувствительные потери данных возникают именно при использовании специализированных поисковых служб.
Рассмотрим несколько примеров. Немало специализированных систем имеют собственный интерфейс для ввода поисковых запросов. Тем не менее можно считать веянием времени, когда многие подобные сервисы интегрируются в шаблоны глобальных ИПС в виде фильтров. Такими возможностями всегда был известен HotBot, недавно соответствующие элементы были внедрены на AltaVista, есть они и на Еxcite. Постоянно расширяется набор фильтров поисковой системы Lycos (см. рис.1), на которой мы остановимся подробнее.
Рис.1. Шаблон расширенного поиска на Lycos с поддержкой многочисленных фильтров (http://lycospro.lycos.com/).
Представьте себя на месте пользователя, впервые пришедшего на такую известную глобальную поисковую систему, как Lycos, с желанием найти в Сети сведения о некотором книжном издании. Введя соответствующие ключевые слова и выбрав фильтр "Books", мы получаем отклик, который при отсутствии дополнительной информации нельзя расценить иначе, как получение данных о книгах, собранных по всему Интернету. Интересно задать вопрос, а может ли в масштабе Сети автоматически вестись отбор таких сведений? Если говорить только о пространстве WWW, то в большинстве случаев программы-пауки, сканирующие Сеть, используют для распознавания типа данных специальные элементы языка HTML, с помощью которых в Web-страницу внедряются определенные информационные блоки. Название элемента может нести смысловую нагрузку и отождествляться с типом информации. Так, если бы гипотетически существовал элемент HTML book, заключающий в себе сведения о книге и ее авторе, он мог бы размещаться на странице и в простейшем случае иметь вид:
<book> Название книги и автор</book>
(сами элементы <book> в окне браузера не должны отображаться). При этом вся информация о книгах, публикуемая таким образом в WWW, могла бы благополучно и без участия человека накапливаться в базе данных ИПС. Но элемента book в стандарте HTML пока не существует. Следовательно, приходится прибегать либо к "ручному" отбору, либо к автоматическому просмотру некоторых наперед заданных каталогов отдельных узлов, и, возможно, имеющих отношение к продаже книжной продукции или библиотекам.
В случае Lycos все гораздо проще. Поиск происходит всего навсего по одному единственному узлу компании (www.barnesandnoble.com), заинтересованной в реализации своего товара. К чести разработчика следует сказать, что после нескольких лет молчания по поводу фильтра "books" в глубине предлагаемой документации сегодня можно найти скромное упоминание об арендаторе фильтра. Ранее его владельца просто было нельзя идентифицировать, и только спустя некоторое время, становилось понятно, что система работает с довольно незначительной по объему и специфически пополняемой базой данных.
Не менее серьезно выглядят опасения, когда поиск связан с информацией, привязанной к определенному формату ее хранения, например, звуковым файлам. В течение нескольких месяцев поиск "звуков в Интернете" на Lycos оставался чем-то таинственным, напоминающим работу с небольшой, но со вкусом собранной коллекцией. Тестирование системы с помощью простых запросов показывало, что в основном в ней представлены форматы wav и au. Недавно стало известно, что теперь поддерживаются также и mp3, mid, ra , ram и aif. При этом объем накопленных записей, доступных через большинство фильтров, продолжает сохраняться в тайне.
Ясно, что если интересующий вас формат не входит в поддерживаемый на данный момент системой перечень, вы получите нулевой отклик, причину которого следовало бы четко представлять с самого начала.
Происхождение сопроводительных записей к звуковым файлам на Lycos, которые отображаются в результатах поиска, по-прежнему не регламентировано разработчиком.
Аналогичные проблемы существуют и на других ИПС. Хотелось бы отметить типичный в этом отношении прием: использование шаблона глобальной ИПС как для поиска информации, относящейся ко всему Интернет-простанству, так и для поиска по некоторым избранным базам данных или коллекциям. К сожалению, реальное поле поиска оговаривается далеко не всегда, и часто его приходится выяснять самостоятельно во избежание неверных выводов в дальнейшем.
Проблема N 2: язык поисковых запросов
Ситуация может осложниться тем, что на поисковом сервере вы не найдете исчерпывающего описания того, как работают операторы языка запросов.
Даже на уже зрелых, не первый год работающих ИПС, с этим можно столкнуться. Рассмотрим на примере AltaVista, как это может стать источником определенных проблем.
Несмотря на недавнее появление графического фильтра (см. рис.2), многие пользователи системы продолжают эксплуатировать прозрачный по своей природе оператор image, позволяющий находить в индексе графические файлы. На этот счет справка AltaVista исчерпывает себя тем, что рекомендует ввести в шаблон запрос, в котором вслед за указанным оператором должно следовать имя или часть имени искомого файла. Таким образом, для поиска файла с изображением акрополя следует задать запрос в виде image: acropolis.
Рис.2 Шаблон простого поиска AltaVista (www.altavista.com) с фильтрами и меню выбора языка поиска.
Увеличит ли наши шансы на успех, знание того, как реально отрабатывает оператор image? Если посмотреть на откликнувшиеся документы, а затем на их HTML-источник, то легко убедиться, что в каждом из них в месте вставки графического образа присутствует элемент <IMG>. Внутри него в качестве обязательного атрибута стоит URL, с которого собственно и извлекается сам файл:
<IMG SRC="http://www.citforum.ru/buildings/acropolis.gif">
Фактически же Web-страница дает отклик, если ключевое слово входит не только в имя файла, но и в название любого каталога и в доменное имя сервера, содержащихся в URL элемента <IMG>. То есть документ, включающий в себя приведенную выше строку, откликнулся бы и на запрос image:buildings. Следовательно, поиск по имени каталога, которое так же как и имя файла несет смысловую нагрузку, позволяет получить графические данные, которые нельзя извлечь в первом случае. Предположим, что Web-мастер неосторожно назвал искомый файл acr1.gif, но разумно положил его в каталог buildings.Тогда по запросу image:buildings могут откликнуться релевантные документы с изображением акрополя, вставленным в Web-страницу с помощью строки:
<IMG SRC="http://www.citforum.ru/buildings/acr1.gif">
В расширенном поиске AltaVista используются логические операторы и скобки. Однако на сервере ничего не говорится о том, допустимо ли их применять внутри специальных полей поиска, таких как поле image. Уже заведомо зарегистрированный в индексе графический файл, найденный ранее, можно использовать для проверки работоспособности отдельных поисковых запросов. Так, если предположить, что файл с URL из последнего примера существует, то
тестовый запрос в виде image:( buildings AND acr1) должен дать корректный ненулевой отклик, и, таким образом, подтвердить, что комбинирование операторов допустимо. На практике это действительно возможно.
Хотелось бы еще раз подчеркнуть, что речь здесь идет не о порочности отдельных поисковых систем, а о конструктивном подходе к разрешению возникающих вопросов. При этом нередки и ситуации, которые предугадать крайне сложно.
Если, скажем, на той же AltaVista организовать поиск по ключевому слову "президент" (оно специально выбрано в качестве тестового как довольно распространенное), легко убедиться, что отклик зависит от двух факторов: какой язык выбран в меню шаблона (см. рис.2 справа вверху) - русский (Russian) или любой (any language), а также какая русская кодировка установлена в меню браузера. Результаты поиска приведены в таблице 1.
Кодировка/Язык | Русский (Russian) | Любой (Any) |
Windows-1251 | 47 | 583 |
Koi8-r | 3 | 52 |
Анализ списка отклика показывает, что, во-первых, при вводе запроса только в одной кодировке неминуемо теряются данные. Во-вторых, становится ясно, как система идентифицирует тот или иной язык документа. Оказывается, если некоторая начальная часть документа написана на языке, отличном от русского, то этот документ уже не описывается ИПС как русскоязычный. Как результат этой недокументированной особенности, максимальный отклик индекса при поиске по русскоязычному термину достигается при установке пункта меню "any language", а не "Russian".
В шаблоне расширенного поиска популярной бизнес-ориентированной системы Open Text Livelink Pinstripe (OTLP) (рис.3) также скрыты некоторые проблемы, никак не освещенные в справочном материале ИПС .
Рис. 3. Шаблон расширенного поиска OTLP (http://pinstripe.opentext.com/search/power.html) с модельным запросом.
Как видно из рисунка, шаблон позволяет задать свое поле поиска для каждого термина, а затем связать термины с помощью логических операторов. Однако, как только терминов становится больше двух - возникает вопрос, в какой последовательности будут отрабатывать операторы, и соответственно, что из себя будет представлять результат. Даже для такого простого запроса как term1 AND term2 OR term3 разумно предположить двоякую интерпретацию, которую можно проиллюстрировать с помощью выделения в скобки логических единиц (в самом шаблоне скобки не применяются). И вариант (term1 AND term2) OR term3, и вариант term1 AND (term2 OR term3) кажутся приемлемыми, давая при этом совершенно разный отклик. Тестовый запрос и последующий анализ откликнувшихся документов показывает справедливость первого варианта, т.е. что операторы выполняются по мере своего появления в шаблоне, и в документе будут присутствовать либо term1 и term2 одновременно, либо term3. Как в таком шаблоне вводить запросы с участием фраз (а это возможно), автор предлагает выяснить читателям самостоятельно. В данном случае приходится констатировать очевидную небрежность разработчика по отношению к пользователям системы.
Подавляющее большинство ИПС Интернета сегодня активно работает с так называемыми стоп-словами (stop-words). К последним относят служебные части речи, которые не несут смысловую нагрузку, а также некоторые наиболее общеупотребительные в Сети слова, такие как information, Internet, Web, business и другие. Известно, что AltaVista, Excite, HotBot и Lycos применяют в работе технику стоп-слов, а Infoseek и NorthernLight ее не практикуют.
При появлении стоп-слов в поисковом запросе без специальных ухищрений ИПС может не учитывать их при поиске и ранжировании результатов, иногда информируя об этом пользователя, иногда - нет. В целом неучет стоп-слов при обработке запроса сокращает время поиска и повышает релевантность отклика. Однако, стоит вам захотеть отыскать что-нибудь вроде классической фразы Шекспира "to be or not to be", состоящей только из стоп-слов, и вы уже не владеете ситуацией.
Хотя стоп-слова и могут игнорироваться в простых запросах, в индексе полнотекстовой ИПС они присутствуют наряду с остальными. Такой системой является, например, AltaVista (индексируются все слова документа). HotBot в свою очередь, напротив, индексирует все, кроме стоп-слов.
Тем не менее и HotBot выполняет полнотекстовое индексирование отдельных значимых полей документа, так что запросы со стоп-словами, оформленные в виде фразы, дают и на этой ИПС результативный отклик.
Перечень стоп-слов не стандартизован, так что он может быть оригинальным для каждого сервиса. Разработчики редко приводят сведения об этом аспекте работы ИПС, однако при необходимости поиск по ключевым словам stop, words плюс название интересующей вас поисковой машины позволяет обнаружить в Сети версии соответствующих перечней.
Наиболее общие принципы выхода из проблемной ситуации следующие: по возможности избегать употребления стоп-слов в запросах, исключить применение логических операторов типа and, or, not и других в тех шаблонах, в которых они не поддерживаются и будут восприняты как стоп-слова.
Если же без стоп-слов в запросе нельзя обойтись, то следует включить их во фразу, что во многих системах означает заключение в кавычки. В отдельных случаях полезно протестировать работу шаблонов простого и расширенного поиска ИПС, в которых техника поддержки стоп-слов может быть различной.
Проблема N 3: отклик поисковой системы
Самая захватывающая интрига Сети, которую порождают ИПС, связана с особенностями работы алгоритма, ранжирующего результаты в списке отклика. Эти сведения обычно не предаются широкой огласке, но они крайне необходимы Web-мастерам, продвигающим в суровой кокурентной борьбе свои узлы через поисковые системы Интернета. Попасть в первые несколько десятков записей из списка отклика на ИПС по часто повторяющимся в Сети запросам - значит обеспечить свою доступность для потенциальных клиентов. (см. КомпьютерПресс N 5, с. 114).
Тем не менее и при решении поисковых задач во время работы со списком отклика из-за недостатка информации также могут возникать некоторые проблемы.
В предыдущем выпуске мы говорили о том, что простые тестовые запросы, позволяют с самого начала работы с ИПС понять, насколько широко в индексе представлена искомая информация. Однако не всякая ИПС дает полное число документов, содержащихся в отклике на запрос (например, Lycos, не дает). В какой-то мере это позволяет системе сохранить свое лицо, избежав сравнения с гигантами - Northern Light, AltaVista или HotBot. При решении профессиональных поисковых задач к таким сервисам следует обращаться в последнюю очередь.
Обычно в списке отклика появляется информация, которая включает в себя заголовок страницы, адрес и аннотацию. Аннотация берется либо из специального META-элемента, задаваемого автором документа, либо в ее качестве выступают несколько первых нередактируемых строк текста, взятых со страницы. В некоторых случаях указывается язык документа. Выше мы уже обратили внимание на проколы алгоритма AltaVista, связанные с идентификацией языка, и подобные случаи не редкость и на других ИПС.
Другая обескураживающая неприятность - это возможное отсутствие в найденных документах тех самых ключевых слов, по которым проводился поиск. Причиной подобного явления, если не считать незарегистрированное обновление страницы без изменения адреса, оказывается тот факт, что ключевые слова были заданы автором в специальном поле - элементе META. Оно доступно для сканирования роботом ИПС, но не отображается на странице. В этом случае путем просмотра META-элементов HTML-источника у вас есть возможность убедиться в недобросовестности автора: несоответствие ключевых слов содержанию документа - это прямая дезинформация.
Еще одна проблема вообще неочевидна для единичного пользователя. Речь идет о том, как поисковый сервер обрабатывает запросы в случае, когда их поступает слишком много, т. е. в режиме переполнения. Так, автору статьи не раз приходилось сталкиваться с тем, что, например на AltaVista, при одинаковом и практически одновременном тестовом запросе с 10-15 компьютеров, количество результатов, появляющихся в отклике для каждого пользователя системы иногда может отличаться на десятки тысяч. В действительности, попадая в режим перегрузки, поисковый сервер не имеет большого выбора, а именно: либо он отклоняет запрос, либо обслуживает его по "сокращенному" варианту. Последний вполне может предполагать предоставление лишь части удовлетворяющих запросу данных. Выход очевиден: проверять достоверность отклика ИПС многократно и в разное время суток.
Проблема N 4: небрежность и мистификации
Здесь нам хотелось бы остановиться на некоторых более чем реальных опасностях, которые подстерегают пользователя, доверившегося мало известному поисковому серверу. Написать об этом автора заставляет случай. Человеку была срочно необходима информация о наличии прямых электропоездов между двумя городами СНГ. Воспользовавшись Рамблером, ему быстро удалось локализовать сервер, предлагающий необходимые сведения (рис.4).
Рис.4 Результат обработки поискового запроса на сервере
"полных железнодорожных расписаний" по России и СНГ
http://pavel.physics.sunysb.edu:8080/
После введения станций отправления и назначения система ответила отрицательно (см. рис.4, строка внизу). Такой категоричный ответ сервера заставил человека прекратить дальнейшие поиски и принять решение, о котором скоро пришлось пожалеть. Предъявить претензии к разработчику системы также оказалось невозможным. Дело в том, что чуть ниже под результатом поиска пользователем не была замечена одна важная деталь, а именно надпись "Расписание рекламное, возможны изменения, за которые не несут ответственности ни распространитель, ни МПС". При этом если бы фраза об отказе была сформулирована чуть мягче, пользователь, вероятно, смог бы продолжить поиск в Сети и получить положительный результат.
В некоторых случаях маркетинговая агрессивность разработчика начинает носить вызывающий характер. Вот уже не один месяц, на серверах HotBot и AltaVista расположено рекламное объявление крупнейшей книготорговой компании Amazon (www. amazon.com) и ряда других. При этом на любой запрос в ИПС рядом с результатами поиска появляется баннер, намекающий на то, что как раз по тематике выполненного поиска и можно найти информацию на Amazon, даже если в запросе фигурировал мистический "господин Иванов". (см. рис.5)
Рис.5. "Умный" баннер на сервере www.altavista.com
Подстановка терминов из поискового шаблона в баннер производится путем их механического переноса и без всякого контроля на предмет действительного наличия книг данной тематики на сервере компании. К тому же найти "Иванова" на Amazon нельзя в принципе, поскольку вплоть до последнего момента русскоязычная литература там не продавалась. В данном случае плата за доверчивость - это несколько минут напрасно потраченного времени.
Таким образом, от привычного уважения к печатному слову, в Сети лучше отказаться, особенно если сервер генерирует реплики автоматически.
Профессиональный поиск в Интернете: планирование поисковой процедуры.
, опубликовано в N 7 (1999)
Этой статьей мы продолжаем начатый в прошлом выпуске журнала разговор о поиске информации в сети Интернет, поставленном на профессиональную основу.
Как ранее было отмечено, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим, насколько быстро поисковик приходит к цели, оказывается грамотное планирование поисковой процедуры. Говоря более предметно, речь здесь идет с одной стороны о выборе типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче (см. КомпьютерПресс N 6'99). С другой стороны - о выборе инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день c точки зрения информационного наполнения пространстве WWW, то относительное изобилие поисковых средств Всемирной Паутины делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом шаге поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.
Профессиональный поиск в Интернете: полнота, достоверность, скорость.
Опубликовано в журнале КомпьютерПресс () N 7(1999)
Этой статьей мы начинаем небольшую серию публикаций, связанных с вопросом поиска информации в Интернете. Интерес к нему не ослабевает на протяжении всего времени существования Сети. Однако наш угол зрения на проблему будет несколько нетрадиционным - речь пойдет о профессиональном поиске. Хотелось бы избежать пафосного звучания слова "профессиональный". Оно лишь подчеркивает тот факт, что люди, для которых поиск информации стал частью служебных обязанностей, сталкиваются с проблемами, не свойственными эпизодическому, "любительскому" поиску. Их естественным желанием становится преодолеть эти проблемы и выработать новые результативные подходы к решению поисковых задач.
За последние годы развития Интернет-технологий в мире и в России произошло немало положительных перемен. Формирование позитивного общественного мнения о полезности Сети, расширение ее технических возможностей и географии подключения пользователей стимулировали стремительный рост информационной базы Интернета и, как следствие, становление новых и развитие старых поисковых сервисов. Тем не менее эти события явились лишь фоном, на котором произошел главный перелом - в сознании руководителей среднего и высшего звена как коммерческих организаций, так и государственных учреждений. Стало понятно, что своевременное получение информации из Сети способно приносить авторитет, деньги и стабильность положения ее потребителям. Автору этой статьи, которому в течение нескольких лет приходилось читать и поддерживать на современном уровне курс по поиску информации в Интернете, судьба предоставила уникальную возможность. Немало учебного времени ему пришлось провести с десятками людей, для которых решение поисковых задач стало профессиональной деятельностью. Общение с ними, безусловно, обогатило личный опыт автора, и до какой-то степени уполномочило говорить о самой проблеме от их имени.
Ресурсы Интернета через призму поисковых сервисов.
Среди пользователей Интернета легко очертить две категории. С одной стороны - это разработчики ресурсов в самом широком смысле этого слова от технического персонала до авторов-журналистов, поставляющих информацию в Сеть. С другой стороны - активные потребители информационного потока. Деятельность по поиску информации становится неотъемлемой надстройкой потребительской сферы.
Стремление разработчиков осмыслить интересы потребителя выглядит более чем естественно. Однако эффективные подходы к решению поисковых задач кроются как раз в обратном проникновении - детальном осмыслении поисковиком интересов, намерений и технических решений, культивируемых разработчиком. В этом смысле при рассмотрении основных типов ресурсов Сети мы стремились упомянуть и те, которые пока привлекательны в большей степени для поставщиков информации. Роль некоторых из них для задач поиска не кажется, на первый взгляд, существенной, но такое положение может измениться.
История развития Интернет-технологий показывает, что состояние поисковых сервисов, обслуживающих информационный ресурс определенного типа, напрямую связано с фазой его жизненного цикла (см. рис. 3).
Рис.3. Связь жизненного цикла информационного ресурса Сети с динамикой развития сопутствующих поисковых сервисов.
Кратко поясним основные элементы схемы жизненного цикла. Каталогизация как оформление и укрупнение коллекций ссылок на ресурсы данного типа следует немедленно за становлением ресурса. Сервис автоматического индексирования начинает обычно формироваться лишь в случае достижения информационной массой ресурса некоторого критического объема. После этого течет фаза конкуренции идентичных поисковых сервисов - каталогов и индексов, обслуживающих ресурс. Канонизация фактически приостанавливает этот процесс, отдавая пальму первенства одному или нескольким поисковым системам. Заключительная стадия - угасания ресурса - характеризуется активной утечкой информационной массы в поле функционирования ресурсов другого типа вплоть до полного исчезновения.
Попробуем рассмотреть в свете схемы рис.3 такие информационные системы как Telnet, FTP, Gopher и WWW. Так, очевидно, что ресурсы WWW переживают в настоящий момент пик жизненного цикла между 3 и 4 фазами. Поисковые работы в информационном поле ресурса, переживающего период бурного развития автоматических индексов являются самыми многообещающими и самыми проблематичными одновременно. Архивы FTP находятся в фазе канонизации. Базы данных Gopher и Telnet характеризуются стадией угасания. Тем не менее какую бы жизненную фазу не переживал ресурс, и это основной тезис, проводимый автором, он всегда может содержать уникальную информацию и поэтому требует бережного обращения при организации поиска информации в Сети.
Структура поисковых сервисов Интернета. Поисковые машины и каталоги.
Рис.1 Организация поисковых сервисов Интернета.
Согласно схеме на рис.1 реальными носителями информации о ресурсах, которыми располагает Сеть, являются поисковые машины (автоматические индексы) и каталоги. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными системами.
Автономные поисковые системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя: пространственный масштаб, в котором работает ИПС, и ее специализация.
Сначала о масштабе. При формировании информационного массива поисковая система может следить за обновлением наперед заданного набора документов, каталогов или конечного числа узлов, отобранных по какому-либо принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальными. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационного поля Сети (WWW, FTP или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, который используется глобальной системой для постоянного увеличения числа подконтрольных узлов.
Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации.
Специализация поисковой системы на базе какого-либо профиля или тематики, будь то поиск людей и организаций, компьютерного "железа" или файлов мультимедиа в формате MP3, теоретически может происходить как на глобальной, так и на локальной основе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых узлов, что обычно и реализуется на практике.
Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например, ru и su для России. Серьезным недостатком таких систем является неучет ими большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене com.
Региональные мотивы нередко привносятся и в сервис глобальных ИПС. Система Lycos, например, ранжирует результаты из списка отклика в зависимости от того, из какого региона поступил запрос.
Еще одно важное направление в деле регионализации поисковых сервисов связано с разработкой узлов-зеркал (mirrors) для наиболее популярных поисковых систем. Зеркала должны содержать точную копию индекса первичной ИПС и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны. На практике обновление индекса зеркальной системы всегда происходит с запаздыванием. Так, для австралийского зеркала поисковой машины AltaVista, лидера по количеству зеркал, оно обычно составляет 1-2 дня при безаварийной работе, и это лучшее время. Альтернатива между скоростью работы и полнотой данных становится значимой для пользователя, если он имеет возможность обратиться и к зеркалу, и к первоисточнику.
В прошлый раз мы отдельно отметили, что именно становление автоматических индексов, охватывающих ресурсы определенного типа, имеет знаковый характер. Это событие всегда было связано с фазой бурного развития соответствующего информационного поля, а на текущий момент - с пространством WWW. Реально лишь высокая скорость автоматического индексирования документов с помощью программ-роботов способна обуздать информационный хаос в Сети. Применение же при поиске каталогов ресурсов в "чистом виде", без возможности поиска по ключевым словам, скорее напоминает серфинг, а не серьезную работу с информацией. Тем не менее роль каталогов, заметно упавшая на глобальном уровне накопления данных, остается важной для регионального поиска.
Каталоги WWW, содержащие большое количество записей, например, Yahoo! (более 750 тыс.) или русскоязычный АУ (более 20 тыс.), нередко размещают на своих страницах локальные поисковые машины, реализуемые в виде традиционных шаблонов. Поскольку визуально и в работе последние мало чем отличаются от шаблонов на автоматических индексах, сами каталоги такого типа часто неверно называют поисковыми машинами. Дело здесь не в чистоте терминологии, которая неинтересна рядовому пользователю. Проблема в том, что непонимание того, как внутренне функционирует поисковая система, влечет за собой неконтролируемую потерю информации. Так, следуя ошибочному определению, можно легко поставить на одну ступеньку глобальный автоматический индекс Northern Light и "поисковую машину"-каталог Yahoo. Это означает пытаться сравнивать в едином ключе сервисы, нацеленные на решение совершенно разных, по крайней мере, с точки зрения профессионального поиска, задач. Локальная поисковая машина каталога предполагает поиск по ключевым словам, входящим в названия разделов, узлов и другим немногочисленным данным, которые вводятся при регистрации. В то время как в автоматическом индексе информация об отдельном узле намного шире - в идеале вплоть до единичного слова каждого документа, причем с учетом специальных полей Web-страницы и режима обновления данных.
Простота организации локальной по Web-узлу поисковой машины делает ее частым атрибутом не только каталогов, но и самых рядовых сайтов. Если сравнить содержимое индекса локальной системы с информацией о том же самом узле из индекса глобальной поисковой машины, то локальная система имеет все шансы превзойти глобальную и по полноте данных, и по частоте их обновления.
Благодаря этому довольно часто наиболее эффективный путь от запроса на глобальной ИПС к конечному блоку информации лежит через промежуточное звено -локальный поисковый сервис узла (см. схему на рис.2). Под внутренним на схеме понимается поиск внутри конечного объекта, если это возможно, например, поиск по тексту Web-страницы, поддерживаемый большинством браузеров.
Рис.2. Уровни поисковой процедуры.
Чрезвычайно важной проблемой Сети является интеграция различных поисковых сервисов в единую систему. Для Паутины 1999 год уже стал знаменателен одним неординарным событием - при участии 15 крупнейших поисковых систем Интернета в феврале стартовал проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб. Материалы о нем можно найти по адресу http://www.searchenginewatch.com/standards/990204.html.
Уже первые документы проекта дают понять, что задачей стандарта является максимально сблизить синтаксис и возможности поисковых языков различных ИПС. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ - по URL.
Понятно, что даже это простое соглашение поставило бы учет и контроль информации в масштабе Сети на принципиально новый уровень.
Теоретически привлекает перспектива создания сверхмощной глобальной поисковой системы, которая бы была способна сопровождать Сеть в ее полном информационном объеме. Однако на практике это пока невозможно, и решение проблемы интеграции смещается в сторону разработки метапоисковых систем (см. рис.1).
Практика показывает, что сделать качественную
Практика показывает, что сделать качественную поисковую систему, во всех отношениях прозрачную для пользователя, не всегда оказывается в интересах и силах разработчика. В конечном итоге разрешить львиную долю проблем можно лишь совместными усилиями пользователей и создателей ИПС при активном обмене мнениями. На западе для этой цели уже издается журнал "Searchers" (http://www.infotoday.com/searcher) для людей, занимающихся поиском профессионально. В таблице 2 представлен перечень серверов, публикующих информацию о проблемах поиска, а также их краткая характеристика.
http://www.searchenginewatch.com/ | Один из самых известных сайтов. Материалы для поисковиков и Web-мастеров по всем аспектам работы поисковых систем под редакцией Danny Sullivan. Действует бесплатный список рассылки - более 60 тыс. подписчиков Англ. |
http://www.monash.com/spidap.html | Обширные и систематически обновляемые материалы по поиску, новости. Англ. |
http://www.promotion.aha.ru/ | Promo.ru., свежие материалы по поисковым машинам и каталогам, освещены русскоязычные поисковые системы. Рус. |
http://www.notess.com/search/ | Редактор сайта Greg R. Notess - автор нескольких бестселлеров об Интернете и стратегиях поиска. Обзоры поисковых систем. Англ. |
http://www.askscott.com/ | AskScott, материалы по глубинным аспектам поисковых технологий. Англ. |
http://www.researchbuzz.com/ | Новые статьи по поиску, советы пользователям. Англ |
http://www.zdnet.com/products/internetuser/search.html | Новые статьи по поиску. Англ. |
http://www.howandwhy.com/Computer/Searching.html | Обзор и сравнительная характеристика поисковых языков наиболее известных поисковых машин. Англ. |
http://www.citforum.ru/pp/ | Подборка оригинальных статей по поиску, обновляется систематически. Рус. |
http://www.zhurnal.ru/search/articles.shtml | Ссылки на русскоязычные статьи о системах и секретах поиска, не обновляется, интересен с скорее с "исторической" точки зрения. Рус. |
Таблица 2. Некоторые сервера с материалами по поиску информации в Интернете.
В заключение хотелось бы отметить, что основная цель этой статьи, поставленная автором, была далека от того, чтобы перечислить некоторый набор, возможно, полезных сведений об отдельных поисковых сервисах Сети. Она была совсем в другом - привлечь внимание читателя к более важному моменту: инструмент, с помощью которого нам приходится решать реально значимые для себя задачи, требует осторожности, изучения и "обкатки". В особенности, если этот инструмент всегда наполовину чужой, каким является для пользователя поисковая система Интернета. В противном случае последствия его применения будут плохо предсказуемы.
Координаты автора:
Центр Информационных Технологий
e-mail: