Александр Садовский
РУКОВОДИТЕЛЬ ОТДЕЛА ВЕБ-ПОИСКА КОМПАНИИ ЯНДЕКС «НАКРУТКИ РАНО ИЛИ
ПОЗДНО БУДУТ ОПРЕДЕЛЕНЫ НАШИМИ АЛГОРИТМАМИ»
Копирайт "IT СПЕЦ", ИЮЛЬ 2007
С1994 ПО 2002 ГОДЫ РАБОТАЛ В СФЕРЕ РЕКЛАМЫ. В СЕНТЯБРЕ 2002-ГО ВОЗГЛАВЛЯЛ АНАЛИТИЧЕСКИЙ ОТДЕЛ КОМПАНИИ ADLABS. В СЕНТЯБРЕ 2003-ГО БЫЛ ПРИГЛАШЕН В КОМПАНИЮ «ЯНДЕКС» ДЛЯ РАБОТЫ НАД ПРОЕКТАМИ. СВЯЗАННЫМИ С ПОИСКОМ. КРОМЕ РАБОТЫ НАД ВЕБ-ПОИСКОМ С ЕГО УЧАСТИЕМ БЫЛИ ЗАПУЩЕНЫ СЕРВИСЫ «ПОИСК ПО БЛОГАМ», «ЯНДЕКС.ХМL» И ДР.
Наглядный и повседневный при мер - компания решила создать свой собственный сайт для привлечения потенциальных клиентов. Что необходимо учесть уже на этапе создания сайта, чтобы он был интересен поисковым системам, в частности Яндексу?
Робот поисковой системы — программа, которая заходит на сайт на тех же правах, что и случайный, но очень любопытный пользователь. Он узнает о сайте по ссылкам на других сайтах или когда ему скажут о существовании сайта прямо (с помощью http://webmaster.yandex.ru/). Анализируя страницу, на которую где-то сослались, робот пытается обнаружить, какие еще документы есть на сайте, скачать их, проиндексировать, найти следующие документы, другой сайт... и так до бесконечности.
Некоторые сайты боятся слишком активной индексации. Во-первых, она может создать большой трафик, за который владелец сайта платит. Во-вторых, если у сайта ненадежный хостинг, а скрипты небрежно написаны, интенсивное скачивание страниц роботом может перегрузить сайт и пользователи не смогут к нему «достучаться», пока его обходит робот. В-третьих, тексты пишут люди, поэтому сайтов, где есть миллионы полезных и осмысленных страниц, крайне мало. И если сайт готов отдать, скажем, миллиард документов, значит, они генерируются скриптом и не всегда приемлемы для людей. В результате роботу приходится выбирать, какие сайты обходить чаще, какие реже. Он пытается избегать индексации техногенного мусора, старается отличать «еще один сайт» от «уникального полезного сайта».
Чтобы ускорить появление страниц сайта в индексе, необходимо, во-первых, исключить из индексации ненужную информацию, во-вторых, помочь роботу узнавать о новых страницах, в-третьих, улучшать качество сайта (и следовательно, со вре*менем будет расти его авторитетность). Вот некоторые советы, которые могут помочь:
запретить в файле robots.txt индексацию страниц,неинтересных пользователям. Например, формы ответа на форуме, статистику посещений, сайты-зеркала, документы на нераспространенных в Рунете языках;
создать карту сайта, т.е. страницу или несколько страниц, на которых приведены ссылки на все документы сайта;
выдавать корректные заголовки отве*та сервера. Например, если страница не существует, выдавать ошибку 404, а если поступил запрос «If-Modified-Since», то выдавать код 304, если страница суказанной в запросе даты не изменилась;
каждой уникальной странице сайта по возможности должен соответствовать только один URL. Распространенная причина появления дубликатов — генерация сайтом URL с незначащим параметром, изменение которого не приводит (или не всегда приводит) к изменению страницы;
для сайтов, созданных на Flash или AJAX, на фреймах, создавать html-страницы, которые сможет найти и проиндексировать робот, а пользователь,придя на них, поймет, что это за сайт и о чем он.
В Интернете масса статей и порой кардинально разных мнений, что и как влияет на результаты поиска. И все-таки, что влияет на ранжирование по запросам, если говорить о «Яндексе» или других поисковых системах?
Факторов, влияющих на ранжирование, много, в зависимости от поисковой системы от десятков до сотен. Итоговая формула релевантности довольно часто перенастраивается, отработка каждого класса запросов может идти по другим принципам — это еще одна причина, почему так много суждений, что именно влияет на результаты поиска. Факторы можно условно разделить на несколько групп: «внутренние» (текст страницы, html-форматирова-ние и т. д. — то, что наверняка доступно для правки владельцу сайта), «внешние» (ссылки на страницу, посещаемость и пр.) и «динамические» (распределение каких-либо факторов во времени). Публикация детального описания алгоритма ранжирования приведет к тому, что поисковую систему станет обмануть легче и качество поиска неизбежно снизится. Поэтому ни один поисковик никогда не раскрывает все свои наработки. Про «Яндекс» я могу сказать, что все группы факторов, перечисленные выше, мы активно используем. Кроме того, и список факторов, и вид формулы постоянно эволюционирует. Даже техника подбора непрерывно совершенствуется (не так давно, например, мы использовали для этого алгоритм Differential Evolution). Что касается мнений и даже исследований, посвященных «разгадке» формул поисковой системы, то, несмотря на некоторую наивность и упрощенность, зачастую они довольно правильно называют многие факторы.
Что можно извлечь из столь часто упоминающихся параметров ТИЦ и PR? Многие ими оперируют, но мало кто знает их истинное предназначение. Еще меньшее количество людей могут грамотно и верно расшифровать текущие параметры. Самое распространенное мнение - чем больше, тем лучше. Так ли это?
ТИЦ — тематический индекс цитирования сайта, который используется для сортировки сайтов в Каталоге «Яндекса». ТИЦ зависит исключительно от ссылок на сайт и с него, от темы сайта и не влияет напрямую на поиск.
Заблуждение о его связи с поиском рождается, видимо, потому, что алгоритм ранжирования учитывает ссылки на страницы. Чем больше качественных ссылок ведет на страницу, тем, как правило, она выше находится по запросам, но рост числа ссылок приводит и к росту ТИЦ. Поэтому создается впечатление, что рост ТИЦ способствует успехам в ранжировании. PR в «Яндексе» не используется, «Яндекс» имеет собственный алгоритм, который называется ВИЦ — взвешенный индекс цитирования. ВИЦ учитывает намного больше факторов, чем классический алгоритм определения ссылочного ранга страницы и является одним из факторов алгоритма ранжирования. Значение ВИЦ для страниц не публикуется по упомянутым выше причинам.
Активные накрутки рано или поздно будут определены алгоритмами и приведут к ухудшению ранга страницы, вместо улучшения. Если стоит задача долговременно*го развития сайта, стоит придерживаться нескольких принципов.
Создавайте сайты с оригинальным контентом или сервисом. Реклама не может служить основным или уникальным содержанием сайта. Думайте о пользователях, а не о поисковых системах. Задайте себе вопрос: создадите ли вы этот сайт, страницу или ее элемент, если бы не было поисковиков? Приходят ли пользователи на ваш сайт не из поисковых систем?
Ставьте ссылки, интересные пользователям вашего ресурса, помогающие найти связанную информацию или проанализировать предложение. Не ссылайтесь только потому, что вас попросили сослаться.
Дизайн должен помогать пользователям увидеть главную информацию, ради которой сайт создан.
Будьте честны. Привлечь пользователей по запросам, на которые ваш сайт не может достойно ответить, не значит удержать их. Обманутые пользователи уйдут, и, возможно, вместе с ними уйдет с сайта робот поисковой системы.