Что такое дубли страниц? Как найти дубли страниц?

   Всем привет! В этой статье на Tipsite.ru мы разберемся с тем, что такое дубли страниц и как найти дубли страниц.

как найти дубли страниц

   Тема эта очень и очень важная, поскольку дубли негативно сказываются на продвижении сайта и…  Хотя не буду забегать наперед, поскольку об этом подробнее поговорим по ходу данной статьи. И чтобы не ходить вокруг да около, сразу перейдем к первому вопросу.

Что такое дубли страниц?

   Согласно словарям, дубль означает «повторение» или «двойной».

Значит, в нашем случае дубль страницы – это копия или повтор определенной страницы, в общем, клон. Причем одинаковым может быть либо содержимое страницы, либо ее адрес (URL).

   То есть, если на вашем блоге присутствует две страницы с одинаковым содержанием, но разными адресами, то это дубль. Точно также, если есть две страницы с разным содержанием, но одинаковым адресом (URL), это тоже дубль.

   Хочу заметить, что дубли страниц бывают полными и неполными (частичными). Если, к примеру, содержимое двух страниц полностью совпадает, то это полный дубль. Ну и, соответственно, когда совпадение страниц частичное, то и дубль называется неполным.

   Ну вот, с терминологией разобрались, теперь можно переходит к следующему вопросу.

Чем опасны дубли страниц?

   Главная опасность дублей страниц заключается в том, что они очень уж «раздражают» поисковые системы. И если Яндекс ведет себя еще более-менее сносно, то Гугл просто рвет и мечет. Наличие большого количества дублей на сайте может привести к серьезным проблемам в его продвижении.

   1) Если две страницы содержат одинаковый контент (текст), то в глазах поисковиков они, естественно, не уникальны. А теперь представим, что на каком-либо сайте имеется 100 страниц и все они обзавелись дублями 😯 . Получается, все, что было нажито непосильным трудом, все пропало! Тексты, которые писал автор, для поисковиков будут неуникальными. Из-за этого сайт может значительно потерять свои позиции в поисковой выдаче.

 2) Дубли «размывают» вес страницы. Каждая страница имеет свой статический вес. При наличии дублей этот вес размывается. А зачем оно нам надо? Правильно, не зачем!

   3) Ссылки, которые вы проставляете при внутренней перелинковке, могут уводить не на основную страницу, а на ее дубликат, что не есть хорошо.

  4) В особо тяжелых случаях поисковые роботы могут посчитать дубль страницы более релевантным (актуальным, точным) запросам пользователей, чем оригинал.

Как видите, дубли страниц – это зло, с которым нужно бороться. Они мешают продвижению сайта, а в некоторых случаях делают его невозможным.

   Известны случаи, когда популярные сайты начинали терять свои позиции и трафик, а вебмастера рвали себе волосы на голове и не могли понять, в чем дело. В дальнейшем выяснялось, что проблема была в сотнях и тысячах (!) дублей. Как я уже говорил, Google очень жестко борется с дублями и задвигает сайты с ними куда-нибудь подальше. Яндекс, конечно, более лоялен в этом вопросе – обычно он просто склеивает дубли, но в любом случае, продвижению сайта это не способствует.

Откуда берутся дубли страниц?

   Вопрос логичный и интересный. Как появляются эти самые дубли? А причин для этого может быть несколько.

   1) Плодить дубли может движок вашего сайта (CMS). Хотя чаще всего в этом обвиняют WordPress, но та же Joomla или DLE клепают дубли ничуть не хуже. Чаще всего дубли появляются на страницах рубрик, архивов, RSS и комментариев (comments, replytocom). Одним из способов избавиться от такого мусора является создание правильного robots.txt, в котором ненужные страницы запрещаются для индексирования. Правда, в случае с Гуглом такой метод не гарантирует 100% результата.

   2) Отсутствие 301-ого редиректа. Если ваш сайт доступен по такому адресу — site.ru, и по такому – www.site.ru, то это очень плохо. Для поисковых систем это два разных сайта, а с учетом того, что их содержимое совершенно одинаковое, ждать чего-то хорошего в этом случает не стоит, ведь это очевидный дубль, причем в очень больших масштабах. Основной адрес сайта (главное зеркало) должен быть один и настроить его поможет 301-й редирект.

  3) Ошибки вебмастера. Конечно, вебмастер не сможет слишком нашкодить сайту и тем более он не станет это делать намеренно. Но иногда из-за невнимательности или спешки автор может прописать одинаковое название (Title) двум статьям. Бывали случаи, когда вебмастер публиковал одну и ту же статью два раза. Результат таких провалов – дубли!

   Это основные причины появления дублей страниц на сайте. Возможно, есть и другие специфические варианты, но встречаются они намного реже. Ну а теперь переходим к самому интересному вопросу.

Как найти дубли страниц?

   Для начала можно посмотреть общую картину с количеством проиндексированных страниц в поисковиках. В этом нам поможет очень полезное расширение для браузера – RDS Bar. Прежде всего нужно подсчитать примерное количество страниц на сайте. У меня на Tipsite.ru на данный момент должно индексироваться примерно 80 страниц. Теперь смотрим, что показывает RDS Bar.

узнать дубли страниц

   В индексе Яндекса присутствует 83 страницы, что в пределах нормы, а вот Google проиндексировал 144 страницы. Из них 60% (примерно 86 страниц)  находится в основном индексе, а вот остальные 40% (58 страниц) – это, так называемые «сопли». Такое прикольное название возникло из-за того, что кроме основного индекса у Google есть еще один – Supplemental Index, который переводится, как «дополнительный». Ну а при попытке прочитать это заграничное слово буквально, получается очень веселое название.

   Итак, с общей картиной ознакомились, теперь можно переходит к более точным данным. Начнем с Google. Для этого в адресной строке браузера пишем вот такой запрос: site:tipsite.ru/& (вместо tipsite.ru подставляйте адрес своего сайта). После этого в результатах поиска мы увидим все страницы сайта без «соплей», которые находятся в основном индексе Google.

найти дубли в гугл

   Теперь пишем немного другой запрос: site:tipsite.ru. В результатах будут показаны все проиндексированные страницы вместе с «соплями».

дубли гугл

   Переходим на последнюю страницу и нажимаем на неприметную ссылку «Показать скрытые результаты».

дубли

   Снова двигаемся ближе к концу выдачи и видим, что за «сопли» попали в индекс.

дубли RSS

   В моем случае это лента RSS. Что самое интересное, эти файлы у меня закрыты от индексации в robots.txt. Сам Google этого тоже не отрицает и вместо сниппета пишет про ограничения в robots.txt, но несмотря на это в индекс, почему то, добавил.

   Что касается Яндекса, то с ним все просто и ясно. Он либо индексирует страницу, либо нет и никаких «соплей» в индексе не развешивает. Да и то, что запрещено для индексации в robots.txt Яндекс трогать не будет. Чтобы просмотреть, какие страницы находятся в индексе Яндекса нужно набрать уже знакомый запрос: site:tipsite.ru.

   Еще один вариант отыскать дубли страниц – это воспользоваться расширенным поиском. В Яндексе расширенный поиск доступен по адресу https://yandex.ru/search/advanced, ну а в Google вначале нужно нажать «Настройки», а там уже до расширенного поиска рукой подать.

Поиск Гугл

   Итак, открываем окно расширенного поиска и вписываем отрывок какой-либо статьи, а также адрес своего сайта. После этого нажимаем кнопку «Найти» и смотрим результаты.

Поиск Яндекс

   В моем случае дубли не были найдены.

   Ну и напоследок хочу рассказать про автоматический способ поиска дублей. В этом деле нам поможет программка Xenu, которая также неплохо ищет битые ссылки, или же Google Webmaster. В пункте «Оптимизация HTML» можно увидеть повторяющиеся метаописания и заголовки, которые могут оказаться дублями страниц.

dubli-stranic

   На этом данная статья подходит к завершению. Те, кто внимательно ее прочитал, теперь точно знают, что такое дубли страниц и как их найти. В следующей статье я расскажу, как бороться с дублями, то есть, как от них избавиться. Подписывайтесь на обновления Tipsite.ru, чтобы не пропустить публикацию данного поста. Благодарю вас за внимание и пока!








Один отзыв на «Что такое дубли страниц? Как найти дубли страниц?»

  1. Error:

    При всем удобстве, данный способ имеет тот же недостаток — нет возможности найти частичные дубли страниц.

    [Ответить]

Ваш комментарий