Ответы Александра Садовского на вопросы веб-мастеров
Александр Садовский - это руководитель отдела веб-поиска Компании Яндекс.
Цитата:
1. Что понимается под сортировкой по релевантности при поиске всех страниц сайта командой url=www.site.ru*”?
Правда ли, что страницы сортируются по вИЦ?
Страницы сортируются не по убыванию ВИЦ, а по другим критериям.
Цитата:
2. Возможно ли реализовать эффективный учет тематичности сайтов как фактора ранжирования при относительно небольших вычислительных затратах?
И если ответ "да", (а я думаю, что да), то есть ли это в каких нибудь планах Яндекса?
По понятным причинам мы стараемся не комментировать факторы, влияющие на ранжирование. Конечно учет темы в ранжировании — это вопрос соотношения полноты, точности и производительности. Для небольшого числа запросов, сайтов, страниц можно достичь высокой точности классификации и хорошей производительности. Для всех запросов это сделать намного сложнее, учитывая, что более половины из них в течение месяца не повторяются.
Цитата:
3. Где и сколько хранится кеш поиска?
а) в каждом метапоиске?
б) они обмениваются между собой?
в) кеш скольких поисков хранится?
г) есть ли минимальный срок, или влияет только загрузка?
Каждый запрос попадает на «свой» кеширующий метапоиск. В случае проблем на этой машине запрос уходит на другой метапоиск. Кеш очищается в моменты обновления базы, а также выборочно чистится в случае заполнения диска.
Цитата:
4. Считает ли Яндекс разумным сделать пессимизацию за внешние факторы, как это сделал Google (пресловутый Google Bowling)?
Мы смотрим на все факторы, в т.ч. и на внешние. При этом пессимизация никогда не производится исключительно на основании внешних факторов.
Цитата:
5. Собирается ли Яндекс вводить гео-таргетинг выдачи? Для пользователей из СПб, давать бонус сайтам с регионом СПб или хостящимся в Питере? Для других городов аналогично.
Сейчас мы работаем над локализацией для крупных географических регионов, дойдем ли до уровня городов и в какие сроки — зависит от прироста качества, которое получим, и успешности решения проблем.
Цитата:
6. Ссылки всегда будут править балом? Есть ли альтернатива в плане определения релевантности?
Намерен ли Яндекс в дальнейшем развивать значимость внутренних факторов, например, контента, по отношению к внешним, подобно Google?
Мы используем все доступные нам способы повысить качество поиска. Конечно же ссылки не единственный и далеко не исчерпывающий источник полезной информации.
Цитата:
7. Будет ли когда-либо отменен знаменитый «найден по ссылке»?
Многие документы не могут быть найдены иначе, чем по ссылке. Иногда это связано с техническими причинами, иногда с отсутствием лексики в тексте страниц. Все современные поисковые системы умеют находить документы по ссылкам, отличаются же они только тем, что некоторые, такие как Яндекс, честно предупреждают пользователя «перед вами текст ссылки», другие же этого не делают. С нашей точки зрения в замалчивании есть некоторое «введение в заблуждение», которого мы стремимся избегать.
Цитата:
8. Не секрет, что сейчас очень остро стоит проблема дублирования контента (причем, не только в рунете). Фактически, делать свой информационный (НЕ маркетинговый-продающий) контент для сети становится практически не выгодно. И это учитывая, что до нас пока еще не в полном объеме докатились технологии всяческого scraping-grabbing, тырящие контент в полностью автоматическом режиме. Будет ли Яндекс пытаться сделать так, чтоб в выдачу попадал именно сайт правообладателя? Возможен ли какой-то механизм регулирования этой проблемы?
Проблема важная и поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml
Цитата:
9. Существует ли число (в процентах) которое определяет качество выдачи? Скажем если в выдаче 10% дорвеев - то она качественная, больше - уже нет.
Если в выдаче 10% дорвеев, она безусловно некачественная. Конечно любое пороговое число — условность, облегчающая понимание. Наши внутренние метрики самые обычные, например, доля релевантных ответов в первой десятке, доля низкокачественных сайтов (дорвеи, спам) в десятке и т.д. Мы анализируем не только показатели, но и их динамику.
Цитата:
10. Как Яндекс относится к огромному количеству сайтов-спутников, созданных только для продвижения клиентских сайтов? Будет ли присваиваться меньший или мизерный вес ссылкам с сайтов, принадлежащих одному физическому лицу или компании, ведущих на один или несколько «продвигаемых» в поиске сайтов? Это к вопросу о плодящихся как грибы в сети сайтах-спутниках (сателлитах), которые зачастую имеют одного владельца и «висят» на одном IP. Или может быть будут какие-то другие методы борьбы?
К сайтам и страницам, созданным исключительно для роботов, а не для пользователей, мы относимся отрицательно. У нас давно работает алгоритм, определяющий группы аффилированных сайтов. В работе находится еще один алгоритм, который позволит выявить многие новые виды сайтов-спутников. Его предварительные результаты нас радуют.