воскресенье, 21 сентября 2014 г.

Проблема дублирования страниц сайта



С проблемой дублирования страниц сайта сталкиваются все web-мастера. Зачастую это связано с используемой ими CMS. Если не уделить этому вопросу внимание, то может быть наложен штраф за копирование контента на одном и том же ресурсе. Это приведёт к посадке продвигаемых страниц в поиске, либо всего сайта.
Чтобы избежать этого, нужно придерживаться ряда правил, описанных ниже.

Правило 1. Использование тега "rel=canonical"

Тег "rel=canonical" предназначен для того, чтобы показать поисковым роботам, какая страница из всей группы является канонической, т.е. основной. Записывается это следующим способом:
<link rel="canonical " href="http://www.yoursite.ru/article.html" />

Следует отметить, что такой метод является целесообразным, если дублированных страниц много, а закрыть их единым правилом в Robots.txt не предоставляется возможным.
Но можно воспользоваться и 301-ым редиректом, описанным в следующем правиле.

Правило 2. "Склейка" страниц с помощью 301-го редиректа

Данный приём применяется, наверное, чаще других. Он действительно является настоящей палочкой-выручалочкой в большинстве случаев, связанных с дублированием. Прописывается данное правило в файле .htaccess вашего сайта.
Редиректом (или по-другому - переадресация) применяется в следующих случаях:
1. Использование нескольких доменов для одного сайта.
Это хорошо можно увидеть на примере Google, который использует несколько доменов, но всегда перенаправляет на основной - google.com.
2. Изменение домена.
В Сети практикуется переход с одного домена на другой. Например, если зайти на домен http://olddomaine.ru, вас перебросит на http://newdamaine.ru. Данная переадресация реализована с помощью 301-го редиректа.
3. Канонизация основного домена.
Чтобы было более понятно, рассмотрим следующий пример.
Допустим, что существует некий сайт, который доступен по двум адресам, - с www и без него. Для человека это один сайт. Но для поисковых роботов это два разноименных сайтов с одинаковыми структурой и контентом. Результатом такого двуличия может стать то, что поисковик посчитает их дубликатами друг друга и просто исключит их из поиска. Для решения данной проблемы должен применяться 301-ый редирект.
4. Канонизация страницы.
Этот случай схож с предыдущим. Допустим, наша главная страница доступна по двум адресам: http://domain.ru/ и http://domain.ru/index.html/. Поисковый робот не будет заморачиваться над выявлением основной страницы - он сразу же сочтет это за дублирование контента.
Поэтому, чтобы избежать всего этого, в файле .htaccess нужно прописать следующий код:
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^www\.domain\.ru$
RewriteRule ^(.*)$ http://www.domain.ru/$1 [R=301, L]
RewriteCond %{THE_REQUEST} ^[A-Z] {3,9}\ /(([^/] + /)*)index\.html \ HTTP /
RewriteRule index\.html$ http://www.domain.ru/%1 [R=301, L]
</IfModule>
Данная конструкция решает сразу две проблемы, описанные в пунктах 3 и 4.

Правило 3. Работа с файлом Robots.txt

Для избежания индексирования дублированного контента сайта, можно использовать файл Robots.txt. Данный документ размещается в корневой папке вашего сайта и имеет адрес http://domain.ru/robots.txt.
Далее будет описан синтаксис файла Robots.txt, который поможет избежать проблем с дублированием контента.
Все, что вам требуется, это указать название робота и действие. В нашем случае это запрет на индексацию определенных страниц. Давайте на миг представим, что наша страница доступна по нескольким адреса:
http://domain.ru/stranica-saita.html/
http://www.domain.ru/stranica-saita.html/
http://domain.ru/articles/stranica-saita.html/
http://domain.ru/stranica-saita.html/
Нам нужно определить основную страницу. Пусть это будет http://domain.ru/stranica-saita.html/. Значит в файле Robots.txt остальные страницы нам нужно запретить к индексации. Делается это следующим образом:
User-agent: Goolebot
Disallow: http://domain.ru/stranica-saita.html/
Disallow: http://www.domain.ru/stranica-saita.html/
Disallow: http://domain.ru/articles/stranica-saita.html/
Давайте разбираться в данной конструкции.
Директива User-agent определяет поискового робота. В нашем случае это Googlebot. Если вы хотите указать запрет для Яндекса, то пишите Yandex. Чтобы дать запрет для всех поисковиков, достаточно указать символ "звездочка" (*).
User-agent: *
Далее идёт директива Disallow. Это правило указывает роботу, что эту страницу не нужно индексировать. Тут стоит обратить внимание, что для каждого дубля страницы сайта приписывается своя директива Disallow.
Иногда требуется закрывать от индексации целые каталоги. На примере WordPress рассмотрим, как запретить поисковым роботам индексировать каталог wp-admin.
User-agent: *
Disallow: /wp-admin/
#запрет индексации роботами каталога wp-admin
Из примера видно, что для запрета достаточно указать лишь имя каталога. Таким образом вы запрещаете индексировать не только каталог, но и все файлы, находящиеся в нем. Так же появился знак "решетка" (#). Он означает комментарий и никак не влияет на работу сайта. Он нужен для удобства web-мастера.

Правило 4. Использование тега "robots"

Бывают такие ситуации, что у вас нет доступа к файлу Robots.txt. Тогда вы можете использовать альтернативный вариант - это мета тег "robots".
Если говорить честно, то данный мета тег лучше использовать, если вы заимствовали контент с чужого сайта. Вот пример использования мета тега "robots":
<meta robots="noIndex">
Атрибут "noIndex" равен директиве Disallow в файле Robots.txt. Он запрещает поисковикам индексировать данную страницу.

Мы рассмотрели несколько вариантов для решения дублирования контента. Применяя их на практике, вы оградите себя от множества проблем, связанных с продвижением сайта. Попасть под фильтры поисковиков - дело не хитрое, а вот выбраться на поверхность - это нужно постараться. Поэтому, делайте сразу верные ходы и всегда их анализируйте.

Комментариев нет:

Отправить комментарий

Яндекс.Метрика