Регистрация

Этот опасный noindex

28
0
1 797 0
Аудио Текст
7 июня 2012

«„Яндекс”, как и любая другая поисковка, — это мощный коллективный разум. И в одиночку мы с ним не справимся», — утверждает независимый эксперт Андрей Шипилов. Но он подразумевается отнюдь не партизанскую войну с поисковой системой. Тема программы — подлинный смысл тега noindex и ошибки в его использовании.

Из программы вы узнаете:
— что нужно знать о теге noindex и откуда взять эту информацию;
— какие ошибки могут быть связаны с употреблением запрета на индексацию части страницы;
— что знает «Яндекс» о контенте, закрытом через noindex, и как его учитывает;
— как не закрывать то, что уже закрыто;
— почему бессмысленно прятать блоки ссылок с помощью noindex;
— каковы два способа использования noindex;
— как все-таки убедить «Яндекс» не читать страницу.

Андрей Шипилов: Здравствуйте. Сегодняшняя моя лекция посвящена бойцам невидимого фронта — тем, кто, не жалея сил, днем и ночью пытается перехитрить «Яндекс» и заработать хоть немножко денег. Но эта хитрость, которую мы применяем в борьбе с «Яндексом», — палка о двух концах. Не надо забывать о том, что на самом деле «Яндекс», как и любая другая поисковка, — это мощный коллективный разум и в одиночку мы с ним не справимся. А если еще учесть, что мы очень часто не удосуживаемся изучить правила игры противника, то нередко попадаем впросак. В частности, поэтому я озаглавил сегодняшнюю лекцию «Этот опасный noindex».
Все прекрасно знают, что такое noindex. Это такой тег, который, будучи вставленным в HTML-код сайта, запрещает «Яндексу» индексировать ту или иную область текста. Из-за простоты использования он очень-очень широко используется как средство борьбы с «Яндексом». То есть «Яндекс» этот тег ввел, а мы его пытаемся использовать как средство борьбы. Возникают порой очень комичные ситуации, потому что для того, чтобы пользоваться тем или иным инструментом, особенно если это инструмент противника, надо понимать, как он работает. А чтобы понимать, как он работает, необходимо хотя бы минимально изучить документацию того же «Яндекса», чего почему-то никто не делает. Поэтому noindex — это очень опасный тег, который надо применять с умом.
История: не так давно ко мне обратилась одна фирма с просьбой разобраться, почему вдруг ее сайт сначала посыпался в выдаче на низкие позиции, а потом стал даже частично вылетать из индекса вообще. Я начал разбираться. Первое, что делается обычно, — открывается исходный код страницы сайта, и смотрят, что там такое. И я вижу картину: текст, и в него вкраплены сочетания тегов noindex. Идет какое-то предложение, потом посередке — бац! — пара, открывающая и закрывающая noindex, дальше, через одно предложение, целая фраза забрана в noindex и т. д. И так сплошняком по всему тексту, по всему сайту. Я задаю вопрос:
— Собственно говоря, а с какой целью вы это сделали?
— Понимаете, у нас не очень уникальный текст, мы решили спрятать от «Яндекса» часть этого текста, чтобы тот счел его уникальным. Кроме того, у нас кое-где очень высокая насыщенность ключевыми словами, которые «Яндекс» может счесть криминалом, поэтому мы эту насыщенность тоже убрали в noindex, чтобы «Яндекс» не смог это дело прочитать.

Возникает вопрос: а почему вы решили, что убранное в noindex «Яндекс» не будет читать?

Это заблуждение, которое встречается сплошь и рядом. Возьми любого на SEO-форумах, спроси, и девять из десяти ответят, что если вы забрали текст в тег noindex, то «Яндекс» не будет его читать. Даже сама логика подсказывает: господа, «Яндекс» считывает ваш текст и дошел до тега noindex. Соответственно, вы ему говорите: дальше текст не учитывай до того момента, пока закрывающий тег не появится. Чтобы найти закрывающий тег, он должен текст прочитать? Он в любом случае прочитает весь текст, а прочитав его, обработает. Потому что тег noindex, как явствует из самого названия, означает «не индексировать». Это запрет индексации текста, запрет на то, чтобы ваш текст появился в выдаче поисковой машины. Но это ни в коем случае не является запретом на то, чтобы прочитать текст, проанализировать его и использовать для каких-то своих целей. «Я забрал какой-то кусок своей страницы в noindex, а значит, спрятался от „Яндекса”» — это логика на уровне ребенка: я в домике — меня никто не видит! Видит прекрасно! И «Яндекс» видит. Поэтому, когда вы принимаете такие меры, вы делаете первый маленький шаг к тому, чтобы загубить свой сайт.
Конечно, ничего плохого в этом теге нет. И нет ничего плохого в том, что вы запретили «Яндексу» прочитать какую-то часть вашего текста. Мало ли что там? Может быть, у вас там какие-то телефоны, которые вы не хотите показывать в поисковых машинах, адреса. Например, фамилия, имя, отчество любовницы, и вы не хотите, чтобы жена его нашла в поисковике. Причин может быть куча. И если вы этот тег использовали, текст внутри него не появится в выдаче, но «Яндекс» его считает, проанализирует и сделает выводы.
Доходит до совершенно комических ситуаций. Вот пройдите по интернету, посмотрите сайты, на которых установлены счетчики, тот же счетчик LiveInternet. Откройте текст самой страницы просмотра кода, и вы с вероятностью свыше 50% увидите, что код LiveInternet забран в noindex, что его запретили «Яндексу» проиндексировать.

Господа, код счетчика — это программный код. Программные коды «Яндекс» никогда не индексирует и никогда их в выдаче не показывает. Независимо от того, забрали вы его в noindex или нет.

В любом случае это чисто программный код, который предназначен для обработки браузером. Он в выдаче быть не должен, он в выдаче не будет, «Яндекс» его индексировать не станет. Но прочитать прочитает, независимо от того, есть там noindex или нет.
Иногда даже двоякая глупость получается. Вот если взять тот же код счетчика LiveInternet — это чистый JavaScript. Программисты и веб-мастера понимают, что это такое, а кто не программист и не веб-мастер, тому достаточно знать, что JavaScript —такая вещь, которую «Яндекс» никогда не читает, не индексирует, не интерпретирует. Мало того что мы забрали программный код, мы забрали еще JavaScript-код, который никогда не будет проиндексирован «Яндексом» вне зависимости от noindex. Спрашиваю:
— Зачем вы это сделали?
— А вот у нас там есть ссылочка, мы не хотим, чтобы «Яндекс» эту ссылочку видел и учитывал.
Господа, эта ссылочка является частью JavaScript! Все, что внутри JavaScript, «Яндекс» не видит, не учитывает. Иногда анализирует, правда, но никогда не учитывает — безо всяких noindex.
А вот с ссылочками получается еще гораздо более интересная ситуация. Вот я не знаю, есть ли такая статистика, но, по моим прикидкам, очень часто веб-мастера, особенно манимейкеры, закрывают в noindex огромное количество ссылок, ведущих с сайта на другие сайты, с тем чтобы якобы спрятать их от «Яндекса». Мы уже знаем, что если вы поставили ссылку в noindex, то «Яндекс» ее все равно прочитает и увидит. Более того, это прямо написано в документации «Яндекса»: если внутри noindex спрятана ссылка, то эта ссылка будет обработана как самая обычная, будто там нет вообще никакого noindex. По ней будет совершен переход, она передаст вес. Единственное, сам текст ссылки проиндексирован не будет, но сама ссылочка будет проиндексирована. И хотя она не появится в выдаче, «Яндекс» по ней перейдет, «Яндекс» учтет вес, который она передает. Для выдачи это, в общем-то, не столь существенно, но для тИЦа, кстати, может сыграть какую-то роль. Повторюсь, использование тега noindex, для того чтобы спрятать ссылку от «Яндекса», — это глупость.
Совершенно иная ситуация возникает, когда вы хотите спрятать ссылку так, как вам советует сам «Яндекс». У «Яндекса» для этой цели есть инструмент — атрибут rel="nofollow", который вы можете поставить в ссылочку. Вот если вы поставили такой атрибут rel="nofollow" — на слайде он показан, — то вы, в общем-то, тем самым сказали «Яндексу»: «Эту ссылку не учитывай, по ней не переходи!» — и «Яндекс» это поймет. Но, поняв, все равно перейдет по ней и посмотрит, что за ссылкой прячется. Отличие будет только в том, что ссылочка в noindex вес передаст, а ссылочка в rel="nofollow" не передаст, но все равно она будет прочитана, по ней будет совершен переход. И если эта ссылочка ведет на какую-то страничку, эта страничка будет соответствующим образом проиндексирована — не важно, на вашем она сайте или вне вашего сайта.

Возникает вопрос (мне его часто задают на моих семинарах): а как запретить «Яндексу» считывать часть страницы или страницу целиком?

Вот не знаю! Может быть, я недостаточно грамотный, но способа запретить «Яндексу» считать часть вашей страницы, спрятать часть вашей страницы я не знаю. Можно запретить страничку к считыванию целиком. Формально для этой цели служит robots.txt, метатег noindex. Но, как показывает практика, такие странички хоть и не попадают в индекс, но все равно «Яндексом» считываются.

В настоящее время есть только два способа, с моей точки зрения, надежных запретить «Яндексу» читать страницу — обмануть его и поставить либо код ответа 404 Not Found («Не найдено», страница не существует), либо код 403 Forbidden («Запрещено», что доступ к странице запрещен, только по авторизации, только своим, а поисковой машине нельзя).

Вот, как правило, в этих случаях — не всегда, но чаще всего —«Яндекс» страницы не читает.
И напоследок еще один совет: тег noindex можно использовать двояко. Либо, как вы видите на слайде и как его все используют, <noindex></noindex>. Либо оформить его как комментарий: <!--noindex><!--/noindex>. Второй способ более правильный, потому что тег noindex в первом виде понимает только «Яндекс», а у других поисковиков могут возникать с ним недоразумения. Как правило, эти недоразумения серьезных последствий за собой не влекут, но тем не менее бывают ситуации, когда это может сыграть роковую роль. Поэтому, если вы используете тег noindex, пожалуйста, будьте любезны использовать его только по второму варианту.

Развернуть текстовую версию
Комментарии