Как удалить дубли страниц? 6 надежных способов
Приветствую вас, друзья! В прошлой статье я рассказывал о том, что такое дубли страниц и как их найти на своем сайте. Там же я обещал, что в самом ближайшем будущем напишу пост, в котором речь пойдет о том, как удалить дубли страниц.
Сегодня я выполню свое обещание и расскажу о шести надежных и проверенных способах, которые помогут удалить дубли страниц на сайте. Поехали!
Как удалить дубли страниц?
1) Файл robots.txt. Этот небольшой файл, который добавляется в корень (корневую папку) вашего сайта является очень и очень полезным – он указывает поисковым роботам, что можно индексировать на сайте, а что нельзя. С его помощью, как вы понимаете, мы можем запретить поисковикам индексировать страницы комментариев, RSS и другие, которые, как раз, создают дубли.
И если Яндекс, как правило, следует указаниям из robots.txt, то Google может их проигнорировать и добавить запрещенную страницу в свой индекс. В этом случае вместо сниппета будет указано, что описание страницы недоступно из-за ограничений в файле robots.txt, но в индексе она все-таки будет присутствовать. Подробнее о том, как составить правильный robots.txt вы можете прочитать в отдельной статье на Tipsite.ru.
2) 301-й редирект. С помощью 301-ого редиректа можно перенаправить как посетителя, так и поискового робота с одной страницы сайта на другую. Для наглядности представьте, что робот заходит на страницу site/namepost/feed или другую подобную ей, то есть на страницы, которые, по сути, являются дублями. Если на сайте настроен 301-й редирект, то робота сразу перебросит на основную страницу site/namepost, ну а если перенаправления нет, тогда он останется на дублирующей странице и будет индексировать ее, что нам совершенно ни к чему. Чтобы сделать нужное перенаправление, добавьте в файл .htaccess после строки RewriteRule ^index\.php$ — [L] следующий набор 301-ых редиректов:
RewriteCond %{QUERY_STRING} ^replytocom= [NC]
RewriteRule (.*) $1? [R=301,L]
RewriteRule (.+)/feed /$1 [R=301,L]
RewriteRule (.+)/attachment /$1 [R=301,L]
RewriteRule (.+)/comment-page /$1 [R=301,L]
RewriteRule (.+)/comments /$1 [R=301,L]
RewriteRule (.+)/trackback /$1 [R=301,L]
RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
RewriteRule (.*) $1? [R=301,L]
Это, конечно же, не единственный вариант перенаправлений. В статье «Как настроить 301-й редирект?» я подробно рассказывал, как сделать различные перенаправления с помощью файла .htaccess и с помощью плагина. Обязательно прочитайте эту статью.
3) Атрибут rel=”canonical”. Это пункт по праву считается одним из ключевых методов борьбы с дублями страниц. Атрибут rel=”canonical”указывает поисковикам, какая из двух и более страниц с одинаковым содержанием является основной (канонической). Благодаря этому поисковые роботы понимают, что нужно добавлять в индекс, а что не нужно. Чтобы было понятнее, представим, что у нас есть основная страница http://site.ru/page-osnova и ее дубль http://site.ru/page-osnova/dubl. Мы, конечно же, хотим, чтобы была проиндексирована только основная страница, и именно ей отдавался приоритет. Как этого добиться? Для этого достаточно на дублирующей странице, в ее исходном коде между тегами <head></head> прописать вот такой код:
<link rel=»canonical» href=«http://site.com/page-osnova»/>
Стоить заметить, что большинство движков сайта (CMS), в том числе и WordPress, автоматически расставляет атрибут rel=”canonical”. Если же движок сам этого не делает, потому что он какой-нибудь корявый или самописный 😉 , тогда на помощь нам приходят такие плагины: Seo by yoast или All in one seo pack.
4) Параметры URL. Удалить дубли из индекса Google можно с помощью параметров URL. Для этого переходим в Вебмастер Гугл, выбираем «Сканирование», а затем «Параметры URL». Теперь нам нужно указать, какой параметр не должен индексироваться. Допустим, это будет replytocom. Прописываем этот параметр и из выпадающего списка выбираем пункт «Да, параметр изменяет, реорганизует или ограничивает содержание страницы».
Также необходимо указать, что робот Google не должен сканировать никакие URL, в которых встречается выбранный параметр. После этого жмем «Сохранить». Через некоторое время дубли должны выпасть из индекса Гугл.
5) Удалить URL-адреса. Еще одна отличная возможность избавиться от дублей – это удаление ненужных страниц вручную. Если дублей развелось не слишком много, то такой метод вполне применим. Опять же, открываем Вебмастер Гугл и переходим во вкладку «Индекс Google», а потом «Удалить URL-адреса». Вводим в специальное поле URL дублирующей страницы и жмем «Продолжить».
Вот и все, дубль удален и скоро пропадет из индекса.
Кстати, у Яндекса тоже есть возможность удалить ненужные страницы. Переходим в Вебмастер Яндекс, выбираем «Мои сайты», ну и, соответственно, «Удалить URL». Дальше все происходит по накатанной схеме: указываем адрес дублирующей страницы и нажимаем «Удалить».
6) Разбивка комментариев. Этот способ, не поможет удалить дубли страниц, но зато не допустит их неконтролируемого появления. В админке WordPress («Настройки»→«Обсуждение») есть очень интересный пункт: «Разбивать комментарии верхнего уровня на страницы». Убедитесь, что в чекбоксе, напротив этого пункта, НЕ стоит галочка.
Это нужно для того, чтобы комментарии не делились на отдельные страницы, то есть, чтобы не появлялись дубли.
На этом процедуры, связанные с удалением дублей страниц, подходят к завершению. Осталось только подождать определенное время, пока ненужные страницы повыпадают из индекса поисковиков. Я надеюсь, что данная статья была вам полезной. Если у вас остались вопросы или появились замечания, тогда добро пожаловать в комментарии. Спасибо за внимание и пока!
P.S. После напряженного умственного труда предлагаю расслабиться и посмотреть прикольное видео о разоблачении мифов 🙂 .
