Поисковики, представляющие собой на сегодняшний день один из самых востребованных интернет-сервисов, оказывают серьезное влияние на бизнес. По статистике, пользователи редко заходят даже на вторую страницу результатов поиска, поэтому, чем выше расположен сайт, тем больше посетителей он привлечет. Это приводит к стремлению манипулировать результатами, выдаваемыми наиболее популярными поисковыми машинами. С другой стороны популярность поисковика напрямую зависит от того, насколько релевантные ссылки он выдает. Соответственно, чем совершеннее механизм поиска, тем популярнее машина и тем изощреннее становятся способы продвижения сайтов.
Как все начиналось
Первоначально поиск воспринимался как одна из составляющих всемирной паутины, облегчающая жизнь пользователям, а разработчикам поисковых систем и в голову не приходило скрывать механизм своей работы. Сам поиск при этом базировался на обработке специальных тегов в HTML-документах. Но активные вебмастеры практически сразу воспользовались этим и начали заполнять рассматриваемые теги так, чтобы оптимизируемый ресурс оказывался в первых строчках результатов поиска. Более того, очень часто содержание тегов не имело никакого отношения к тематике сайта, но полностью соответствовало словам, составляющим самые популярные запросы.
Поисковики решили эту проблему, прекратив учет содержимого тегов и переключив внимание на текст самой страницы. В тот момент логично было предположить, что чем чаще определенное слово встречается в тексте документа, тем более он релевантен запросу. Но и этот раунд поисковые системы проиграли. Создать множество страниц, в которых сотни раз встречается популярное слово, например, "мобильник", чтобы попасть на первые места по этому запросу, оказалось достаточно просто. В результате интернет наполнился бессмысленными, напичканными ключевыми словами страницами. Посетитель с них мгновенно перенаправлялся на другой сайт, наполненный рекламой или информацией, часто не имеющей никакого отношения к поисковому запросу. Такие ловушки получили название doorway (входная страница). Поисковики быстро среагировали и на эти действия, введя ограничения на частоту использования ключевой фразы на странице. Это частично исправило ситуацию, но не сделало результаты поиска чистыми.
Эпоха Google
Появление на рынке Google, предложившего качественно новый способ организации поиска, принесло существенный перевес в борьбе с поисковыми спамерами. Алгоритм его работы основывается на определении для каждого ресурса, так называемого, авторитета страницы – Page Rank (PR), представляющего собой обобщенный показатель ее популярности. То есть при определении позиции сайта в результатах поиска, помимо количества нужных слов на странице, решающее значение также имеет то, сколько и какие страницы по всему интернету на него ссылаются. Учитывается не только количество, но и качество ссылок. За счет этого верхние места при ранжировании результатов поиска достаются именно сайтам с высоким PR.
Механизм Google открыл новый этап в развитии поисковых систем – практически все современные поисковые машины применяют вариации Page Rank. В "Яндексе" – это индекс цитирования, в "Рамблере" – ссылочный вес документа. При этом наученные горьким опытом разработчики поисковых движков уже не раскрывают точный алгоритм: известны лишь общие принципы работы системы. Дальнейшее развитие принципов авторитетности страницы вылилось в появление "ссылочного ранжирования", когда учитывается текст ссылок на сайт, что придает ему большое преимущество перед другими ресурсами. Например, ссылка, на которую нажимает пользователь, может выглядеть как www.zr.ru, а может содержать слова "за рулем", соответствующие тому же сайту. Если ссылок с такими словами много, то при запросе "за рулем" именно этот ресурс оказывается на первом месте.
Разработчики сайтов ответили созданием системы Search Engines Optimization (SEO) – поисковой оптимизации ресурсов. Специалисты SEO, или оптимизаторы, специализируются как раз на привлечении поисковой аудитории, концентрируют свои усилия на том, чтобы написать текст для сайта, сформировать структуру страниц, расставить ссылки на ресурс и т.п. таким образом, чтобы сайт оказался в самом верху поискового ранжирования при релевантных, а иногда и не очень запросах. В пределе может создаваться несколько различных страниц, каждая из которых оптимизирована под алгоритм конкретной поисковой машины.
При этом, фактически поисковики не против оптимизаторов, соблюдающих правила и создающих полезные сайты, но как в любом деле, где замешаны деньги, желание использовать запрещенные приемы никуда не исчезло. В результате текстовые ссылки стали продаваться, и сформировался стихийный рынок, на котором появилось множество "продавцов лиц", то есть ссылок, размещаемых на главной странице сайта. Поисковики в ответ на это ввели специальные фильтры.
Таксономия и фолксономия
Растеряв часть доверия пользователей, поисковые системы продолжают совершенствовать алгоритмы, но в интернете уже начали появляться альтернативные способы организации и поиска информации. Например, таги – ключевые слова, с помощью которых информация обобщается по категориям. Простейшая иллюстрация – категории на блоге: к примеру, "интернет-сервисы", "новости", "поисковые системы" и т. д. Когда таги образуют иерархию, получается таксономия, принцип организации интернет-каталогов, когда ссылки на сайты расположены в рубриках, имеющих несколько уровней вложенности.
Каталоги веб-ресурсов были популярны еще в начале развития сети, когда количество сайтов было разумным, чтобы рассортировать их по нескольким категориям. На сегодняшний день каталоги разрослись до невероятных размеров и постепенно утратили роль навигатора по сайтам для пользователей. Однако, все те же таги послужили основой для реализации очень простого принципа – доверия мудрости коллективного разума.
Принцип действия тагов прост. Дело в том, что на заре развития интернета сайты делались для относительно небольшого количества посетителей – человек попадает на ресурс, самостоятельно оценивает его дизайн, полезность информации, осуществляет поиск по нему и т.д. Сегодня с сайтом работает целое сообщество, почему бы не воспользоваться этим? Можно учитывать мнения всех посетителей ресурса, предоставив им возможность оставить оценку информации или ее части на сайте.
Для этого в идеале подходит фолксономия – совместная категоризация информации пользователями с помощью тагов. Причем самое важное слово в этом определении – "совместная", то есть пользователь размещает информацию не для себя лично, а для всего социума, а деятельность всех участников суммируется. Сайт предоставляет аудитории инструмент, позволяющий пометить некоторый набор информации одним или несколькими тагами. Они сохраняются в общей базе, и всегда можно просмотреть итоговый результат: список самых популярных, новых тагов, добавленных конкретным пользователем. Эта система хорошо работает на многих тематических сайтах – для записей в блогах, для фотографий, для новостей и результатов поиска и т. д. В качестве примеров можно назвать сервис публичных закладок del.icio.us и сайт для хранения фото-коллекций Flickr. На главной странице Del.icio.us можно найти только что добавленные ссылки и таги, под которым они сохраняются. И одновременно указывается число пользователей, использовавших точно такие же описательные слова для конкретной ссылки.
Ограничение на количество тагов – основная проблема социальных сервисов, основанных на фолксономии, решение которой пока не найдено. Поэтому в ближайшее время данный подход не сможет стать альтернативой традиционному поиску, хотя, возможно, произойдет своего рода интеграция, когда в ответ на запрос помимо обычных результатов поиска будет выводиться ссылка, помеченная большинством. Кстати, подобный поисковик уже создается европейскими разработчиками. Однако, скорее всего проблему с вездесущими оптимизаторами это не решит, и битва за строчки в результатах продолжится.
Поисковая индивидуализация
Крупные поисковые системы в своей стратегии сделали ставку не на использование социальных инструментов, а на персонализацию, или персонификацию, поиска. Летом 2005 года два ведущих поисковика Google и Yahoo предоставили пользователям возможность индивидуальной настройки поиска.
Персонализация поиска – это удобный инструмент, конкурентное преимущество в борьбе за пользователя, и в то же время очередной ответ оптимизаторам, которым теперь будет труднее попасть в поисковую выдачу. Как уже упоминалось, скорее всего, с развитием персонификации все большую роль будут играть пометки к найденным страницам других пользователей, потому что мнение социума, как правило, важнее мнения машины. И в обновленной версии персонального поиска MyWeb 2.0, выпущенной Yahoo, это уже реализовано: пользователь может добавить описание и таги к любой найденной странице, сохранить ее, а также производить поиск по сохраненным страницам друзей и других пользователей, добавлять краткие описания и таги к сохраненным копиям.
Google предлагает персональный поиск в прямом смысле слова – машина будет учитывать ваши предыдущие запросы, клики на сайты, время, проведенное на них, а также (если вы предоставили информацию по своему желанию) ваш возраст, пол, место жительства и т.д., и в дальнейшем построит поисковую выдачу на основе истории, "смещая" результаты в нужную сторону.
Но, к сожалению, движение в этом направлении может быть очень трудным, потому что на данном этапе в борьбу, если не на стороне оптимизаторов, то уж точно против поисковиков, вмешалась третья сила. В частности, широкую огласку получил иск к компании Google, когда она отказалась предоставить имеющиеся у нее данные правительству США. Причем, согласно появившейся информации, другие поисковики предоставили запрашиваемые сведения. Создавшаяся ситуация сильно подрывает доверие к персональному поиску.
Вертикальный поиск
Одним из наиболее оптимальных путей развития поисковых технологий в интернете является создание вертикальных поисковиков, то есть машин, работающих в определенной узкой тематической области и сканирующих заранее определенный список сайтов. Такой подход удобен пользователю по трем причинам. Во-первых, узкое ограниченное пространство поиска во многом исключает появление "мусора", во-вторых, возможность использования глубокого текстового анализа улучшает релевантность результатов, и в-третьих, высока вероятность нахождения ответа на запрос на первых позициях, что сводит время поиска к минимуму.
Такой поиск можно условно разделить на четыре вида: по типу информации, типу файлов, тематике и географии. К примеру, самый распространенный тип информации в интернете – новости, и поисковики, специализирующиеся именно на них, широко известны. Это "Яндекс.Новости", "Новотека", Yahoo News. Для различных товаров, например, mp3-файлов, также существует множество вертикальных поисковых систем. Все более популярными становятся сайты для поиска электронных книг, например, "ПоискКниг" и "Букинист". Любопытны также информационно-поисковая система "Радиодетали" и медицинская поисковая система "Медпоиск". Среди иностранных примеров – поиск по исходным кодам программ и техдокументации Krugle от компании Google.
Локальные поисковые системы привязаны к конкретному географическому району (стране, городу, области или штату). Так, главный китайский поисковик Baidu.com предназначен для поиска по сайтам Китая и на китайском языке. Сужая охват, локальные поисковики могут сконцентрироваться на одном городе или области, как, например, "VolgInfo", который осуществляет поиск по серверам Волгограда и области, или поисковая система Пскова "Псков регион".
Впрочем, практически все поисковые системы верхнего уровня предлагают вертикальный поиск на основе своей базы данных: поиск по картинкам, по новостям, файлам, словарям, товарам и т.д. Но, разумеется, ниш для появления новых тематических поисковиков осталось достаточно. Кроме того, довольно успешно развиваются сервисы, позволяющие организовать поиск по отдельным сайтам.
Другой альтернативы нет
Борьба между поисковыми системами и оптимизаторами продолжается. Резервы есть с обеих сторон, а на карту поставлен реальный бизнес. И если не появится еще один Google, существенного перевеса не получит ни одна из сторон. Тем не менее, учитывая усложнение структуры и постоянное увеличение объемов контента, разработчикам поисковых технологий, скорее всего, в будущем придется акцентировать внимание на более глубоком анализе информации. Новые способы передачи данных и их различные реализации, такие как RSS, AJAX, Wiki, таги, подкастинг, требуют иного подхода к индексированию и анализу документов.