Ответы Александра Садовского на вопросы веб-мастеров

Страница: 1

Сообщений 1 страница 6 из 6

Поделиться12007-07-08 08:46:19

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Ответы Александра Садовского на вопросы веб-мастеров
Александр Садовский - это руководитель отдела веб-поиска Компании Яндекс.

Цитата:
1. Что понимается под сортировкой по релевантности при поиске всех страниц сайта командой url=www.site.ru*”?
Правда ли, что страницы сортируются по вИЦ?

Страницы сортируются не по убыванию ВИЦ, а по другим критериям.

Цитата:
2. Возможно ли реализовать эффективный учет тематичности сайтов как фактора ранжирования при относительно небольших вычислительных затратах?
И если ответ "да", (а я думаю, что да), то есть ли это в каких нибудь планах Яндекса?

По понятным причинам мы стараемся не комментировать факторы, влияющие на ранжирование. Конечно учет темы в ранжировании — это вопрос соотношения полноты, точности и производительности. Для небольшого числа запросов, сайтов, страниц можно достичь высокой точности классификации и хорошей производительности. Для всех запросов это сделать намного сложнее, учитывая, что более половины из них в течение месяца не повторяются.

Цитата:
3. Где и сколько хранится кеш поиска?
а) в каждом метапоиске?
б) они обмениваются между собой?
в) кеш скольких поисков хранится?
г) есть ли минимальный срок, или влияет только загрузка?

Каждый запрос попадает на «свой» кеширующий метапоиск. В случае проблем на этой машине запрос уходит на другой метапоиск. Кеш очищается в моменты обновления базы, а также выборочно чистится в случае заполнения диска.

Цитата:
4. Считает ли Яндекс разумным сделать пессимизацию за внешние факторы, как это сделал Google (пресловутый Google Bowling)?

Мы смотрим на все факторы, в т.ч. и на внешние. При этом пессимизация никогда не производится исключительно на основании внешних факторов.

Цитата:
5. Собирается ли Яндекс вводить гео-таргетинг выдачи? Для пользователей из СПб, давать бонус сайтам с регионом СПб или хостящимся в Питере? Для других городов аналогично.

Сейчас мы работаем над локализацией для крупных географических регионов, дойдем ли до уровня городов и в какие сроки — зависит от прироста качества, которое получим, и успешности решения проблем.

Цитата:
6. Ссылки всегда будут править балом? Есть ли альтернатива в плане определения релевантности?
Намерен ли Яндекс в дальнейшем развивать значимость внутренних факторов, например, контента, по отношению к внешним, подобно Google?

Мы используем все доступные нам способы повысить качество поиска. Конечно же ссылки не единственный и далеко не исчерпывающий источник полезной информации.

Цитата:
7. Будет ли когда-либо отменен знаменитый «найден по ссылке»?

Многие документы не могут быть найдены иначе, чем по ссылке. Иногда это связано с техническими причинами, иногда с отсутствием лексики в тексте страниц. Все современные поисковые системы умеют находить документы по ссылкам, отличаются же они только тем, что некоторые, такие как Яндекс, честно предупреждают пользователя «перед вами текст ссылки», другие же этого не делают. С нашей точки зрения в замалчивании есть некоторое «введение в заблуждение», которого мы стремимся избегать.

Цитата:
8. Не секрет, что сейчас очень остро стоит проблема дублирования контента (причем, не только в рунете). Фактически, делать свой информационный (НЕ маркетинговый-продающий) контент для сети становится практически не выгодно. И это учитывая, что до нас пока еще не в полном объеме докатились технологии всяческого scraping-grabbing, тырящие контент в полностью автоматическом режиме. Будет ли Яндекс пытаться сделать так, чтоб в выдачу попадал именно сайт правообладателя? Возможен ли какой-то механизм регулирования этой проблемы?

Проблема важная и поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml

Цитата:
9. Существует ли число (в процентах) которое определяет качество выдачи? Скажем если в выдаче 10% дорвеев - то она качественная, больше - уже нет.

Если в выдаче 10% дорвеев, она безусловно некачественная. Конечно любое пороговое число — условность, облегчающая понимание. Наши внутренние метрики самые обычные, например, доля релевантных ответов в первой десятке, доля низкокачественных сайтов (дорвеи, спам) в десятке и т.д. Мы анализируем не только показатели, но и их динамику.

Цитата:
10. Как Яндекс относится к огромному количеству сайтов-спутников, созданных только для продвижения клиентских сайтов? Будет ли присваиваться меньший или мизерный вес ссылкам с сайтов, принадлежащих одному физическому лицу или компании, ведущих на один или несколько «продвигаемых» в поиске сайтов? Это к вопросу о плодящихся как грибы в сети сайтах-спутниках (сателлитах), которые зачастую имеют одного владельца и «висят» на одном IP. Или может быть будут какие-то другие методы борьбы?

К сайтам и страницам, созданным исключительно для роботов, а не для пользователей, мы относимся отрицательно. У нас давно работает алгоритм, определяющий группы аффилированных сайтов. В работе находится еще один алгоритм, который позволит выявить многие новые виды сайтов-спутников. Его предварительные результаты нас радуют.

Поделиться22007-07-08 08:46:39

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Цитата:
11. Стоит ли в Яндексе задача устранить возможность манипулирования выдачей путем перелинковки сайтов клиентов большинства веб-студий через «морды»?

Яндекс уже не учитывает многие виды «накрутки» ссылок. Что касается платных ссылок на мордах сайтов, с ними не все так просто – ведь некоторые из них достаточно качественные (возможно из-за высокой цены размещения), поэтому алгоритм их фильтрации пока не завершен.

Цитата:
12. Будет ли Яндекс как-то оценивать и учитывать посещаемость сайтов?

Мы не комментируем факторы, влияющие на ранжирование.

Цитата:
13. Планирует ли Яндекс и дальше полагаться на Платонов или все же планируется улучшить алгоритмы поиска настолько, чтобы не пришлось полагаться на ручные баны (пример разумного подхода к банам - Google).

Поиск Яндекса никогда не зависел от ручных запретов за спам. Ручная обработка используется только для оперативного реагирования на жалобы по поводу сайтов, пропущенных нашими модулями «анти-спама». Число обрабатываемых жалоб совершенно незначительно по сравнению с количеством автоматических детектирований спама (меньше на порядок-два), при этом доля ручного потока все время падает. В перспективе мы хотим перейти к полному отказу от ручных запретов, и к работе в режиме, когда пропущенный нами спам отправляется на вход обучаемому автомату.
Что касается Платона, он — сотрудник службы поддержки, и, хоть и эрудит, но не занимается поиском спама.

Цитата:
14. Почему Яндекс не запускает вроде бы легкий в реализации фильтр на ссылочные блоки на главных страницах сайтов?

В шахматах мало объявить шах, удачная партия заканчивается матом. (смотри пункт 11)

Цитата:
15. Какие ближайшие задачи стоят перед группой разработки Веб-поиска? В каких направлениях сейчас ведутся основные работы? Что было реализовано в последний год, чта планируется реализовать? Расскажите о далеких перспективных планах.

Доклады о тенденциях в разработке поиска часто бывают на конференциях (см., например, http://company.yandex.ru/presentations/ и др.), не хочется повторяться. Если кратко: более глубокий анализ текстов и запросов; изучение динамики факторов; поощрение пользователей делиться знаниями; улучшение представления информации на странице результатов.

Цитата:
16. Не планируется ли урезать поисковый синтаксис, и сокращать кол-во информации, которой Яндекс "помогает" оптимизаторам? Какая судьба ожидает переколдовку запроса, список бэклинков, операторы типа anchor#link=".."[keyword] и т.д.?

Часть этой информации иллюзорна с точки зрения оптимизации (если оператор link показывает обратную ссылку на страницу, это не значит, что ссылка учитывается в ранжировании). Кроме оптимизаторов, подобные операторы полезны исследователям. Поэтому планов закрывать их немедленно у нас нет.

Цитата:
17. К сожалению, не могу спросить "Я" в Вашем лице о перспективных планах. В этом пункте хочу лишь спросить об отношении ПС к собственной же выдаче, например, по запросу "фокусное расстояние" в сравнении с Google. К сожалению, запросов, где выдача "Я" релевантнее Google, все меньше и меньше. А мы, как и многие, действительно (без ёрничества!) любим "Я", и хотим, чтобы он был лучше. Может ли "Яндекс" в ближайшее время сохранить лидерство в области русско-, белорусско- и украинскоязычного поиска? Что делается для этого?

Мы делаем все возможное как на техническом, так и на организационном уровне.

Цитата:
18. Как развивается технология индексации JavaScript-ссылок? Возможно, я упустил что-то, и она есть уже, но хочется развернутых (если можно!) комментариев.

Яндекс пока не индексирует ссылки внутри кода JavaScript.

Цитата:
19. Существует ли бонус (преимущество) для новопроиндексированных страниц с уже ранее проиндексированного сайта перед другими страницами других сайтов, релевантных данному запросу? И на какое время, если да?

Бонуса не существует. В то же время, страницы с новостной и актуальной информацией, индексируемые быстрым роботом, ранжируются по-другому, чем страницы из основного робота.

Поделиться32007-07-08 08:47:01

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Цитата:
21. Яндекс считает что все поддомены сайта - это его подмножество. Т.е. ищем слово, которое есть на сайте и его поддоменах - они попадают в одну строку. Жмем "Еще сайта", и там видим поддомены этого же сайта. Но это ведь неверно в корне... это могут быть совсем различные сайты...
Какие прогнозы по этой несправедливости?

Результаты поиска характеризуются не только релевантностью, но и разнообразием мнений пользователей. Трудно считать хорошим ответ, по которому находятся десять предложений или статей одного автора. Если домен не является хостингом или географическим доменом, как правило, субдомены представляют одного автора. Поддомены с хостингов в результатах поиска «расклеены», поэтому я не вижу какой-то особой несправедливости.

Цитата:
22. На форуме неоднократно описывался эксперимент по выявлению «непота»: на сайте А устанавливается ссылка с уникальным текстом (абракадаброй), ведущая на сайт Б. Далее, после переиндексации страницы со ссылкой, пытаемся искать абракадабру в Яндексе. Если в выдаче находится сайт А, но не находится сайт Б с пометкой "найден по ссылке" - делаем вывод, что на сайт А наложен непот-фильтр. Верно ли такое утверждение? Верно ли обратное (т.е. если в выдаче 2 сайта - непота нет)?

Конечно, неверно. По ссылке может быть найден далеко не каждый документ, ссылка могла быть сочтена малозначимой, страницы сайта Б могут плохо ранжироваться по другим причинам и т.д. Верно ли обратное? Полного фильтра, конечно, нет, но автоматический фильтр может сильно уменьшать вес ссылок, не подавляя их полностью. Это не видно по запросу «абракадабра», но будет видно по частотным запросам.

Цитата:
23. 29 сентября 2004. Яндекс научился индексировать документы, созданные по технологии Macromedia Flash (*.swf). Прошло 2 года, но по-моему до конца эта возможность не отработана. Обычному пользователю все-равно как отображается текст - в виде текста или в виде картинки - пользователю важна информация. Планируется ли доработка этой технологии поиска?

Что вы подразумеваете под «не отработана до конца»? Мы не планируем распознавать текст, переведенный в кривые, и интерпретировать исполняемый код ради извлечения ссылок, но обычный текст в swf и ссылки робот понимает.

Цитата:
24. Как в Яндексе передаётся влияние ссылок (тИЦ, вИЦ, ссылочное) при склейках и редиректах в настоящее время, из наблюдений и общения с поддержкой известно. Планируются ли какие-либо изменения в учёте данных факторов? В частности, не планируется ли передавать ссылочное по 301-му редиректу, как то делается в Google?

О своих планах мы заранее не говорим.

Цитата:
25. Использует ли Яндекс при ранжировании что-то похожее на алгорим TrustRank или это только в планах?

Похожий по смыслу алгоритм используется в Яндексе в ранжировании уже несколько лет.

Цитата:
26. Ведутся ли дальнейшие разработки по борьбе с линкаторами? Когда ожидать результатов? Какова ситуация с платными линкаторами? Вы их "видите" или пока еще нет?

Яндекс автоматически обнаруживает многие «накруточные» ссылки и группы аффилированных сайтов. Разработки продолжаются и результаты по мере готовности мы будем внедрять.

Цитата:
27. Сложно ли на Я.Народе написать скрипт автоопределения "доров" или пока не до этого?

За последние 2 дня с narod.ru автоматически было удалено 416 хостов. Такая чистка идет ежедневно.

Цитата:
28. Планируются ли изменения в алгоритме "картиночного" робота? То есть - дифференцированный подход по скорости индексации, для групп сайтов, в этом нуждающихся, скажем, ускорить робота для раздела "культура"... спасибо.

Текущие разработки в Яндекс.Картинках решают задачу улучшения ранжирования.

Цитата:
29. Есть ли в алгоритме расчета Тематического Индекса Цитирования какой-либо временной параметр? Какой диапазон у коэффициента передачи тИЦ от 1 ссылки? Какие параметры влияют на этот коэффициент – тематика всего сайта, тематика страницы, объем контента на странице или еще что-то?

тИЦ — показатель всего сайта и поэтому тема учитывается для сайта в целом. тИЦ зависит исключительно от ссылок на сайт и с него, от темы сайта; на него не влияют другие внутренние факторы.

Поделиться42007-07-08 08:47:17

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Цитата:
30. Планируется ли в Яндексе вводить алгоритмы, которые учитывают при передаче ссылочного веса от страницы к странице не только вИЦ ссылающейся страницы и анкор ссылки, но и содержимое страницы, а так же качество и вИЦ той страницы, на которую ссылается данная страница, соответствие тематики и т.д.? Т.е. если «хорошая страница» ссылается на «хорошую страницу» (c объемным контентом, например) передаваемый вес больше, чем когда «хорошая страница» ссылается на «плохую страницу» (малоконтентную, например).

В расчете ВИЦ уже учитывается много больше факторов, чем в классическом алгоритме определения ссылочного ранга страницы. Мы и дальше будем улучшать наш алгоритм определения статического веса страницы.

Цитата:
31. Не могли бы Вы рассказать вкратце, по каким текстовым параметрам Яндекс сортирует документы при расчете их релевантности запросу? Имеются в виду чисто текстово-языковые факторы: качество вхождения слов из запроса (порядок слов, расстояние между ними, разнообразие словоформ из данного запроса в тексте, длинна предложений, наличие каких-то оборотов, стоп-слов, распределение частей речи, наличие слов-синонимов и близкотематических слов и может чего-то еще).

Один из многочисленных вариантов ранжирования текстов в Яндексе довольно подробно изложен в работе на РОМИПе: http://company.yandex.ru/articles/romip2004.xml

Цитата:
32. Правда ли, что при учете анкоров ссылок при ссылочном ранжировании текст ссылки приводится сначала к первичным словоформам (леммам), отбрасываются стоп-слова, и только после этого проводятся расчеты?

Совсем не так. Мы стараемся угадать, насколько запрос соответствует странице. Текст ссылок анализируется с этой точки зрения.

Цитата:
33. Считаете ли Вы правильным учитывать общий вес всех страниц сайта именно по контентной составляющей и тематику при расчете релевантности конкретной его страницы среди страниц других сайтов? Ведь может быть ситуация, когда документ с маленького сайта куда более соответствующий запросу, чем документ с большого сайта, но имеющего больший вИЦ всех страниц (в т.ч. самой релевантной данному запросу)?

Мы не рассказываем детали алгоритма ранжирования.

Цитата:
34. Учитывает ли Яндекс при расчете релевантности наличие сайта в Яндекс-каталоге? И если нет, то почему? А если да, то какое это оказывает влияние? Ведь теоретически, сайты из ЯК проверены вручную, у них точно определена тематика и вероятность того, что документы с этого сайта будут не только релевантны запросу, но и более качественны относительно других сайтов, несколько выше.

Ссылки из Яндекс.Каталога учитываются как ссылки авторитетного сайта.

Цитата:
35. Как Вы считаете, есть ли некая зависимость скорости роста естественной ссылочной массы в зависимости от времени для любого сайта? Имеется ввиду именно изменение скорости прироста количества ссылок с течением времени, а не абсолютного их количества. Если такая закономерность есть, было бы правильным поисковой системе сопротивляться ссылконакрутке при сильном отклонении в сторону увеличения от определенного диапазона скоростей роста ссылочной массы? На сколько я знаю Google такие сайты заносит на время в «песочницу» - отключает ссылочное ранжирование т.к. считает эти отклонения умышленной ссылконакруткой. Может быть у Яндекса есть такие планы?

В алгоритме анализа ссылок мы смотрим и на фактор времени тоже.

Индексация сайтов

Цитата:
36. Существует мнение о наличии явления пессимизации некоторых доменных зон. Это относится в упервую очередь к зонам ua, spb.ru, msk.ru, pp.ru.
Если пессимизация существует, то хотелось бы узнать ее определение Яндексом (грубо говоря почему ресурсы в этих зонах либо не вылазят либо это по полгода происходит), если нет - объясните причины различия в скорости индексации и появления в выдаче этих зон и основной зоны ru. Чтобы упредить любые "округленные" комментарии скажу что имею достаточно большую статистическую выборку, чтобы с уверенностью говорить о подобном явлении, кроме того все домены находятся в русской зоне если смотреть по гео, на русских нс-ах и т.п.

Пессимизации по доменным зонам не существует. На скорость индексации может незначительно влиять факт «прописки» сайта в бесплатной доменной зоне, что объективно связано с более низким качеством расположенных там сайтов и большем количестве спама, но если сайт действительно авторитетный и интересный пользователям, он индексируется быстро.

Цитата:
37. Планируется ли введение нормальной (полноценной) индексации AJAX-сайтов?

О планах мы заранее не говорим.

Цитата:
38. Почему Яндекс не индексирует текст из элементов ввода форм (input, textarea, select...)? Этот текст виден пользователю, значит и должна быть возможность его найти. Google и Yahoo с этим справляются (ссылка на доказательства http://forum.searchengines.ru/showthread.php?t=83295 )

Это не доказательства, а непроверенные гипотезы — в указанном обсуждении Вы некорректно поставили эксперимент.
Ни одна поисковая система из перечисленных не индексирует поле input. Google и Yahoo не находят текст на кнопке, а находят слово запроса в тексте ссылок, т.к. на страницу ya.ru много ссылок с текстом «Найти». Если посмотреть кеш Google, можно заметить примечание: «Эти слова присутствуют только в ссылках на эту страницу: найти». Поискав слово «Go» по странице http://www.skilfully.org/, можно окончательно убедиться, что Google не индексирует тексты кнопок.
Поле textarea индексируется Яндексом, что легко проверить, поискав, например, по тексту страницы http://www.rpsc.ru/version/index.php текст «img border» (часть содержимого textarea). Ни Google, ни Yahoo не индексируют textarea (проверьте!).
Select не индексируется Яндексом именно потому, что содержимое выпадающего списка не видно пользователю до взаимодействия с select-ом и он не понимает, почему найдена страница. Yahoo поступает аналогично, в чем легко убедиться, поискав слово «Яндексе» на странице http://itman.narod.ru/. Google индексирует select.

Цитата:
39. Какие требования у Яндекса к хостинговым площадкам, зная которые можно выбрать ту, которая качественнее всех будет индексироваться, и есть ли список хостингов, сайты на которых индексируются с меньшим приоритетом?

Яндекс не выдвигает требований к хостингам и сайты на любой площадке, которые отвечают нашему роботу, индексируются одинаково быстро. Тем не менее, можно сформулировать рекомендации общего характера.
1. При выборе хостера обращайте внимание на uptime (оно исследуется на таких ресурсах, как http://www.uptime.ru/, http://www.uptime.org.ua/ и других); ширину канала на Россию, если сервера расположены вне РФ; загрузку сервера, на котором будут работать ваши скрипты. Все это в той или иной мере определяет возможность робота «достучаться» до сайта.
2. Почитайте новости, были ли у предполагаемого хостера случаи массового взлома сайтов. Мы сталкивались с примером, когда на «взломанных» сайтах размещали вместе с оригинальным контентом ссылки на спамерские сайты.

Поделиться52007-07-08 08:47:34

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Нестабильная работа Яндекса, ошибки алгоритмов, дорвеи

Цитата:
40. Последнее время количество результатов поиска резко сократилось. По слову «москва» всего около 100 сайтов можно найти при листании страниц. Вы говорили, что это какая-то серьезная ошибка метапоиска. Откуда она появилась? Когда планируется полное исправление этой ошибки?

Ошибка появилась, потому что ее не выловили многочисленные тесты. Она проявляется лишь при листании дальше 7-10 страницы, куда заходит очень мало пользователей. В ближайшее время мы планируем локализовать ее и исправить.

Цитата:
41. Как сейчас обстоит дело с техническими ресурсами? Последнее время очень часто по определенным запросам выпадают страницы сайтов, а бывает и тысячи страниц сайтов выпадают из индекса без видимых причин. Выпадение страниц из поисковой базы Яндекса чаще всего объясняется тем, что запись об одном отдельном ресурсе может располагаться на нескольких НМЖД/ПК. Неужели у Вас нет возможности обеспечить целостность поисковой базы? Будет ли нормализована работа Яндекса в этом плане? И если да, то когда?

С техническими ресурсами все отлично. Целостность базы Яндекса поддерживается без сбоев уже много лет. Базовые поиски, где хранится индекс, многократно реплицированы. Поэтому эффект «выпадения страниц» (как называют его оптимизаторы) объясняется, как правило, не техническими сбоями на стороне Яндекса, а сбоями хостеров, ошибками веб-мастеров (вплоть до запрета сайта в robots.txt),понижением позиций сайта по его любимым запросом, что тоже часто называют «выпадением сайта» и т.д.

Цитата:
42. Когда Яндекс исправит ситуацию с удалением сайта из индекса. http://webmaster.yandex.ru/delurl.xml "Все документы по адресу wwwsite.ru будут удалены из базы Яндекса в течение нескольких дней." растягивается уже более чем на 1-2 месяца по некоторым сайтам.

Если сайт корректно запретил удаляемые страницы в robots.txt и сервис подтвердил, что документы будут удалены, такая задержка не является нормальной. Напишите, пожалуйста, на addurl@yandex-team.ru с указанием адреса своего сайта. В большинстве случаев удаление происходит за несколько дней.

Цитата:
43. Когда планируется своевременное соблюдение директивы Host: в robots.txt? Если сайт индексируется как wwwsite.ru, когда указано Host: site.ru уже после того, как robots.txt был размещен 1-2 недели, то при этом сайт с www и без www не склеивается более 1-2 месяца и в Яндексе существуют одновременно 2 копии частично пересекающихся сайтов (один 550 страниц, другой 150 страниц, при этом 50 страниц одинаковых). Прокомментируйте, пожалуйста, проблемы с работой «зеркальщика».

Расширение стандарта robots.txt, введенное Яндексом, директива Host — это не команда считать зеркалами два любых сайта, это указание, какой сайт из группы, определенных автоматически как зеркала, считать главным. Следовательно, когда сайты будут идентифицированы как зеркала, директива Host сработает.

Цитата:
44. Переиндексация некоторых авторитетных, часто обновляемых сайтов Рунета (хотя бы их главных страниц) происходит реже 2-3 раз в год. Почему так происходит? "Сохраненные копии" почти всех крупных сайтов имеют дату апрель-август 2006 года, т.е. некоторые сайты не индексируются основным роботом по 6 месяцев! Более того у почти 50% сайтов при нажатии на ссылку "Сохраненная копия" пишется "страница не найдена", т.е. получается что страницы нет в базе Яндекса ...? Прокомментируйте, пожалуйста, эту ситуацию.

Алгоритм обхода робота некоторое время содержал ошибку, которую мы уже нашли и исправили. Она приводила к более редкой переиндексации главных страниц некоторых сайтов основным роботом (меньше чем 5% известных нам сайтов), при этом быстрый робот обходил их исправно.
«Сохраненную копию» нельзя пока посмотреть только для страниц из быстрого робота и это скоро будет поправлено.

Цитата:
45. Отличная задумка выводить в поиске favicon's сайта, но огорчает, что сканирование их на сайте идёт порой до нескольких месяцев, а выдача или невыдача вообще зависит, похоже, от фазы Луны. Ожидаются ли в будущем изменения в сторону более быстрой переиндексации иконок?

Пиктограммы сайтов меняются довольно редко и делать ежедневный обход мы пока не планируем. На данный момент пиктограммы обновляются еженедельно.

Цитата:
46. 13 июля 2006 года в блоге Яндекс заявил, что в большой поиск были внедрены результаты автоматической географической классификации сайтов и "увеличилось количество сайтов, про которые Яндекс 'знает', к какому городу они относятся.
Извините, но на практике это не сильно заметно (возможно, только в моём случае). Есть региональные сайты, которые не могут оплатить регистрацию в ЯКе только для того, чтобы их находили по поиску в регионе. Для таких сайтов специально делалось всё возможное, чтобы попасть под "региональную выборку" классификатора (почтовый индекс города, международный код телефона, название города в домене, название города на сайте в подписи контактов - всё разом).
Прокомментируйте, пожалуйста, работу вышеупомянутой классификации и дайте совет как правильно/полно дать понять Яндексу к какому региону отнести сайт.

Вы перечислили все верно: можно указать на страницах сайта почтовый адрес с индексом, телефон с кодом города. Геоклассификация запускается не при каждом обновлении базы, поэтому после изменения страниц обождите некоторое время.

Цитата:
47. Индексатор Яндекса часто по много индексирует уже забаненные сайты. Это глюк или особенность? Не выгоднее ли было бы направить всю мощность на индексирование нормальных и новых сайтов? Т.к. при нынешнем положении многие сайты подолгу не индексируются и как я понимаю, возможно, именно по этой причине.

Робот может заходить на некоторые удаленные из поиска сайты. Это нужно, например, для автоматического возвращения сайта в поиск. На индексацию других сайтов это никак не влияет, мощностей робота и каналов у нас более чем достаточно.

Цитата:
48. Принесла ли какой-то результат борьба с дорвеями (рупоиск и блокнотик)?

За последние три месяца долю дорвеев, видимую пользователям (находимых в десяти первых результатах) нам удалось существенно уменьшить. Успокаиваться еще очень рано, потому что многие дорвейщики — умные и экономически мотивированные люди, активно ведущие эксперименты по созданию других видов спама и повышению отдачи от существующего. Например, дорвеи мутируют в псевдосайты, основанные на бесплатном или краденном контенте (новости, каталоги, доски объявлений, имитация «живого» сайта и т.д.) Мы будем стараться, чтобы сайты, интересные пользователям, и впредь находились на любой запрос.

Поделиться62007-07-08 08:47:52

Автор: sctas
Администратор
Зарегистрирован: 2007-03-08
Приглашений: 0
Сообщений: 1101
Уважение: +4
Позитив: +0
Пол: Мужской
Провел на форуме:
8 дней 16 часов
Последний визит:
2008-05-07 04:57:21

Цитата:
49. Возможна ли публикация в сети перечня нарушений влекущих БАН и пессимизацию в редакции Яндекса?

Нет. Поиск Яндекса — результат нашего понимания потребностей пользователей и наших воззрений на ценность информации, структуру веба и его социальные связи. Мы можем быть в чем-то правы, в чем-то ошибаться. И то, и другое влияет на принятие решений, на технологию и, в конечном счете, на результат, необходимый пользователям: могут они найти искомое или нет? Именно пользователи дают нам обратную связь и подтверждают или опровергают наши воззрения.
В то же время, мы планируем опубликовать документ, где более подробно излагаем свои взгляды на качественную и некачественную информацию.

Цитата:
50. Есть ли чёткое определение пессимизации сайтов и её видов? Если возможно, не могли бы Вы рассказать о видах пессимизации Яндексом сайтов.

Пессимизацию можно рассматривать как понижение в результатах поиска сайта и/или его страниц за некачественную информацию или использование обманных техник. Например, если сайт активно участвует в ссылочных обменах, «линкаторах» и другими способами ссылается на «накрученные» ресурсы и спам, он может быть автоматически пессимизирован.
Пессимизация может применяться как к сайту в целом, так и к его отдельным разделам и страницам. Устранение причины, прeведшей к автоматической пессимизации, возвращает сайту нормальные позиции тоже автоматически.

Цитата:
51. Почему за использование одних партнёрок яндекс банит, за использование других нет, невзирая на наличие дополнительного контента на сайте и главную составляющую? Будет ли Яндекс продолжать уничтожать партнерские программы или все таки пересмотрит свое отношение к ним?

Качественный сайт характеризуется оригинальным контентом или сервисом. Реклама не является той ценностью, ради которой пользователи приходят на сайт. Партнерка сама по себе является разновидностью рекламы ресурса организатора партнерской программы. Если партнерская информация сопровождается оригинальным контентом или сервисом, Яндекс не удаляет такие сайты из поиска. (В случае ошибки напишите на addurl@yandex-team.ru.)

Цитата:
52. Снимается ли «непот» с сайтов или это навечно? Платоны способны сказать - на сайте «непот», или они таким термином не оперируют?

Если «непот-фильтр» наложен автоматически, он автоматически и снимается при устранении причин. Служба поддержки не отвечает на вопросы о деталях алгоритма ранжирования, а учет или неучет конкретных ссылок — это именно детали.

Цитата:
53. Почему иногда Яндекс при добавлении URL через форму не сообщает о том, что сайт забанен? Было бы здорово, если бы сразу писалась причина бана или пессимизации.

Мы подумаем над этим, но необходимость в комментариях со временем падает. Доля ручных запретов все время снижается, а любой автоматический алгоритм без участия человека возвращает сайту статус-кво в случае устранения причин запрета.

Цитата:
54. Какими требованиями, по мнению представителей Яндекса, должен обладать каталог, чтобы не отправиться на обед к Платону Щукину? (Качество информации подразумевается по-умолчанию). Уточнение: Играет ли "политкорректность" какую-либо роль в принятии решений о БАНе ?

Каталог как и любой другой ресурс должен быть удобен и полезен пользователям. Стали бы вы создавать каталог (или некоторые его страницы, элементы), если бы не существовало поисковиков? Содержит ли каталог оригинальный контент или сервис (реклама не является контентом)? Скажут ли ваши конкуренты без колебаний, что ваш каталог необходим пользователям и объяснят, почему он ценен? Ответ на эти и подобные вопросы позволит принять решение о ценности вашего каталога.
Политкорректность не влияет на принятие решения об удалении сайта из поиска.

Цитата:
55. Планируется ли ввод санкций против сайтов, продающих прямые нетематические ссылки? В Google уже довольно давно пропогандируют использование аттрибута rel="nofollow" (часто именуемого "link condom" =)) для любых рекламных ссылок, а размещение индексируемой рекламы активно осуждается сознательной общественностью (пример - популярная публикация с громким заголовком "O’Reilly joins the search engine spam parade"). В рунете пока что продажа ссылок - в порядке вещей, по крайней мере, "мордоворотов" не называют спамерами. Где-то в комментах на хабре спрашивали И. Сегаловича, "а что это за подозрительные ссылочки у Экслера на главной?", но Илья ничего определенного не ответил. Что нас ожидает? С мордами будут бороться, или пока в рунете слишком мало источников "естесственных" ссылок, чтоб обеспечить релевантную выдачу, и морды - это как бы меньшее из зол в мире ссылочного спама =) ? Если будут приниматься санкции, гарантирует ли продажа исключительно тематической рекламы защиту от этих санкций?

Ставьте ссылки, интересные пользователям вашего ресурса, помогающие найти связанную информацию или проанализировать предложение. Не ссылайтесь только потому что вас попросили сослаться.

Сервисы для веб-мастеров, сеошники, вебмастера

Цитата:
56. Планирует ли Яндекс сделать специальный раздел, где веб-мастера могли бы посмотреть, что происходит с индексацией их сайтов, по каким словам они находятся и какие ошибки возникают, как это сделал Google? По типу http://www.google.com/webmasters/. Какие возможности планируется реализовать в нём? Когда можно ожидать бета-тестирования или официального запуска первой версии?

Нам не жалко делиться информацией, помогающей веб-мастерам делать сайты лучше. Планы о запусках мы не разглашаем.

Цитата:
57. В продолжении предыдущего вопроса: планируется ли введение сервиса подобного Google Sitemaps, плюс к этому - чтобы веб мастер мог сам указать (с последующей модерацией со стороны яндекса):
1) географическую принадлежность сайта
2) тематику сайта
3) кодировку, язык ресурса

Опыт показывает, что с определением кодировки и языка ресурсов проблем у робота давно не возникает. Географическую принадлежность сайта веб-мастер может указать, приведя на страницах сайта адрес и телефон. А вот при определении тематики сайта люди слишком часто ошибаются, чтобы такая информация была ценной. В то же время, мы хотели бы получать информацию о новых страницах на сайте, мнении веб-мастера о важности страниц и необходимой частоте обновления.

Цитата:
58. Планирует ли Яндекс ввести систему статистики, подобной Google Analytics? Если да, то Ваш ли отдел этим занимается?

Еще раз простите — мы не говорим о своих планах заранее.

Цитата:
59. Яндекс-XML - сервис замечательный, одно только печалит - получать текстовое значение тИЦ через него нельзя, а за использование bar-navig.yandex.ru следует бан IP (по утверждению господина Ю. Вечера). Будет ли в будущем разрешено получать текстовый тИЦ через этот сервис?

Яндекс.XML изначально открывался с возможностью создавать не только поиск, но и проводить исследования, строить оригинальные сервисы вокруг поиска и информации из веба, извлекаемой через поиск. Запрос тИЦ большого числа сайтов мы пока понимаем только как поиск сайтов для получения «накруточных» ссылок, что считаем вредным для качества поиска.

Цитата:
60. В планах ли крупнейшего (на данный момент) поисковика в Рунете наладить нормальную службу поддержки вебмастеров, т.е. расширить штат Платонов Щукиных и давать полноценные ответы, а не шаблонные письма о «каких-то там» нарушениях? В принципе, в ряде случаев можно указать непосредственно на страницы, где есть эти нарушения.

К сожалению, критерии, по которым страница или сайт могут быть сочтены некачественными, усложняются, т.к. в случае автоматических запретов число используемых факторов огромно и перечислить их, не раскрыв алгоритм, нельзя. Поэтому мы не исключаем, что подробность ответов по этой причине будет уменьшаться.

Цитата:
61. Почему Яндекс так недружелюбен к веб-мастерам? Мне кажется стоило бы сделать развернутый раздел с рекомендациями по созданию веб-сайтов в плане оптимизации их под поисковые системы. В данном случае имеется ввиду не накрутка релевантности, а просто отметка важных факторов ранжирования, чтобы веб-мастера это учитывали, ведь они важны и для людей, читающих страницы.
Например, чтобы всегда обращали внимание на TITLE и делали его соответствующим конкретной странице (из него ведь формируется сниппет), description, заголовки H1-H6, выделение наиболее важных терминов тегами (как это принято в обычной литературе). При этом предостеречь веб-мастеров от необдуманного и излишнего использования, например, тегов H или STRONG, указав им на то, что это не улучшит видимость в поиске. Google, например, такое руководство сделал, а выдача у него объективно зачастую лучше, чем у Яндекса, просто алгоритмы, на сколько я понимаю, там более совершенные и в Google не боятся сообщать веб-мастерам о некоторых факторах расчета релевантности. Так же вебмастеров стоило бы предупредить о вреде использования линкаторов, беспорядочного обмена ссылками, бесполезности использования излишнего употребления ключевых слов и проч.

Мы очень дружелюбны к веб-мастерам. Мы планируем расширить раздел Помощи для веб-мастеров в ближайшее время.
Алгоритмы Яндекса изложены, на мой взгляд, детальней, чем у большинства других поисковых систем — например, в статьях на company.yandex.ru.

Страница: 1

Обо всем и ни о чём

Меню навигации

Пользовательские ссылки

Объявление

Информация о пользователе