Как составить правильный robots.txt для WordPress?

   Доброго времени суток, уважаемые посетители и подписчики Tipsite.ru! сегодня речь пойдет о том, как составить правильный robots.txt.

   правильный robots.txt   Тема эта очень важная, я бы даже сказал – одна из главных. Поэтому внимательно читайте эту статью, и будет Вам счастье 😉 !

Что такое robots.txt?

   Прежде чем приступать к составлению robots.txt, необходимо разобраться, что это вообще такое. Сейчас объясню почему. Когда я создал свой первый сайт, то представления о том, что такое robots.txt у меня совершенно не было. Нет, я, конечно, знал, что это какой-то файл, который чего-то там запрещает или разрешает, но мне казалось, что можно вполне обойтись и без него. И лишь со временем, разобравшись в этом вопросе, я понял, что robots.txt – полезная и нужная штука

Robots.txt – это небольшой текстовый файл, который указывает поисковым роботам, какие страницы и части Вашего сайта им можно индексировать, а какие – нет.

   Помните фразу из одного известного кинофильма: «Ты туда не ходи, ты сюда ходи»? Так вот, robots.txt «говорит» что-то подобное поисковым роботам. Честно сказать, эти указания носят всего лишь рекомендательный характер, то есть в некоторых случаях робот может и ослушаться их. Хотя, как заверяет нас Google, большинство поисковых роботов придерживается директив из robots.txt. В любом случае, от этого файла есть огромная польза – это факт! Дальше я расскажу, в чем именно она проявляется.

Для чего нужен robots.txt?

   Да, действительно, а зачем он нужен? Может быть, сайт неплохо проживет и без него? Прожить то он проживет, но только где он будет в поисковой выдаче – это неизвестно.

   Когда поисковый робот заходит на наш сайт, то первым делом он ищет именно robots.txt. Если он его не находит, то начинает бродить по сайту так, как ему вздумается. Вполне возможно, что вместо новых статей робот начнет индексировать файлы шаблона сайта, плагины и так далее. А если учесть, что время пребывания робота на сайте ОГРАНИЧЕНО, то он может и не добраться до нашего уникального контента. В итоге робот сделает вывод, что на таком-то сайте ничего интересного нет и заглядывать сюда можно пореже. В итоге это приведет к тому, что новые статьи долгое время не будут индексироваться, а в поиске сайт будет где-то очень далеко.

   Кроме того, если в robots.txt не закрыть некоторые страницы (каталоги, RSS ленты) от индексации, то в итоге это приведет к тому, что в поиске окажется немеряное количество дублей страниц и другого непотребства, которого там быть не должно. Из-за этого на сайт (особенно молодой) может быть наложен фильтр и будет он оставаться на «задворках» поисковой выдачи.

   С другой стороны, при неправильном заполнении robots.txt можно случайно запретить поисковым роботам индексировать какую-то нужную часть сайта или его полностью. Поэтому, чтобы не допустить таких крайностей, мы будем составлять правильный robots.txt.

Как составить правильный robots.txt?

   Прежде чем представить Вашему вниманию финальную версию правильного файла robots.txt, я расскажу, какие директивы и значения в нем используются. Благодаря этому в дальнейшем Вы сможете самостоятельно редактировать robots.txt, оптимизируя его под Ваш сайт.

   Директива «User-agent». Данная директива указывает, для какого именно поискового робота предназначена следующая информация. Так, например, в User-agent может быть прописана такая директива:

User-agent: Yandex

   Это значит, что все значения, указанные ниже, будут относиться к поисковому роботу Яндекса. Еще один вариант такой:

User-agent: Googlebot

   В этом случае все последующие указания предназначены для робота Google. Как правило, в большинстве robots.txt в самом начале после директивы User-agent стоит символ (*), то есть вот так:

User-agent: *

   Что это значит? Этот символ (*) можно перевести, как «любой» или «любой текст». Он говорит о том, что директива User-agent обращена ко всем поисковым роботам и они должны ей следовать. Именно поэтому абсолютное большинство файлов robots.txt начинается как раз с директивы User-agent: *. Но поскольку поисковый робот Яндекса игнорирует символ (*), для него в robots.txt прописывается отдельное обращение:

User-agent: Yandex

   Директива «Disallow:». Эта директива запрещает поисковым роботам индексировать сайт или его часть в зависимости от того, что после нее указано. Приведу некоторые примеры.

   Disallow: /. Если после символа (/) ничего не будет указано, то поисковые роботы будут это понимать, как запрет индексировать весь сайт!

     Disallow: /wp-content. Если после символа (/) будет написан какой-то каталог, значит поисковым роботам запрещается его индексировать.

     Disallow: /wp-content/themes. Такой варинат будем использовать, если нужно запретить индексациюкакой-то конкретной папки в каталоге (в данном примере – это папка «themes»). Я думаю, что принцип построения запрещающей директивы понятен. Хочу только добавить некоторые значения, которые часто используются robots.txt и объяснить, что они подразумевают.

Disallow: /feed/ — не индексировать RSS-ленту новых статей;

Disallow: */feed – не индексировать всевозможные RSS-ленты;

Disallow: /*? – не индексировать динамически генерируемый контент;

Disallow: */attachment/ — не индексировать страницы вложений (например, страницы для загружаемых картинок);

Disallow: /tag/  — не индексировать страницы тегов (меток);

Disallow: /page/ — не индексировать страницы, которые появляются, когда в качестве главной страницы сайта указывается какая-либо статичная. Если главная страница не статичная, тогда эту директиву НЕ УКАЗЫВАЕМ.

   Я надеюсь, что с запрещающей директивой «Disallow:» все понятно, будем двигаться дальше. 

 Директива «Allow:». Как Вы догадались, «Allow» это противоположность «Disallow», то есть это – разрешающая директива. После нее можно прописывать точно такие же значения, как и в случае с «Disallow».

   Директива «Host:». Эта директива прописывается исключительно для Яндекса. Вот такой он важный пан 😀 . Здесь указываем главное зеркало (адрес) нашего сайта, который он и будет индексировать.

Host: tipsite.ru

   Директива «Sitemap:». Она указывает путь к карте сайта, которая значительно ускоряет индексацию сайта.

Sitemap: http://tipsite.ru/sitemap_index.xml

   С директивами разобрались, и теперь Вы можете посмотреть, как выглядит правильный robots.txt для WordPress. Конечно, Вы можете добавлять или удалять некоторые строки, чтобы максимально оптимизировать его для своего сайта. 

ВАЖНО! В последнее время Google настоятельно рекомендует дать ему доступ к файлам CSS и JS на сайте. Если этого не сделать, то сайт может утратить свои позиции в поисковой выдаче. Я думаю, что лучше с ним не спорить. Поэтому в файл robots.txt я добавил нужные директивы «Allow:».

User-agent: *

Allow: /wp-content/themes/*.css

Allow: /wp-content/plugins/*.css

Allow: /wp-content/uploads/*.css

Allow: /wp-content/themes/*.js

Allow: /wp-content/plugins/*.js

Allow: /wp-content/uploads/*.js

Allow: /wp-includes/css/

Allow: /wp-includes/js/

Allow: /wp-includes/images/

Allow: /wp-content/themes/*.jpg

Allow: /wp-content/themes/*.png

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Disallow: */attachment/*

Disallow: /page/

Disallow: /poisk

Sitemap: http://tipsite.ru/sitemap_index.xml

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Disallow: */attachment/*

Disallow: /page/

Host: tipsite.ru

Sitemap: http://tipsite.ru/sitemap_index.xml

   Внимание! Не забудьте в директивах «Host:» и «Sitemap:» изменить адрес моего сайта на свой.

Как создать robots.txt и куда его загрузить?

   Чтобы создать robots.txt, создайте на рабочем столе своего компьютера обычный текстовый документ с расширением .txt и скопируйте туда вышеприведенный образец. Сохраните изменения и не забудьте переименовать этот файл в «robots» (без кавычек, конечно).

   Куда потом этот файл девать? Его необходимо загрузить в корневой каталог Вашего сайта, то есть туда, где находятся папки «wp-admin», «wp-content», «wp-includes». После этого было бы полезно проверить работоспособность нового robots.txt.

Как проверить robots.txt?

   Яндекс Вебмастер. Переходим на страницу анализа robots.txt, пишем адрес сайта, затем нажимаем «Загрузить robots.txt с сайта» и «Проверить».

как составить robots.txt

   Внизу мы увидим список разрешенных и запрещенных файлов. Если нас все устраивает, значит оставляем данный robots.txt, если же нет – редактируем его.

   Google Вебмастер. Переходим по данной ссылке и проверяем наш robots.txt.

как составить robots.txt

На заметку! Посмотреть robots.txt любого сайта можно, набрав в поисковой строке такую комбинацию: адрес сайта/ robots.txt.

   Ну что же, как составить правильный robots.txt для WordPress мы разобрались. Статья получилась очень объемной, но мне хотелось как можно подробнее и проще объяснить все эти нюансы. Поэтому, прошу понять и простить 😀 !  Если у Вас остались какие-либо вопросы по данной теме, тогда задавайте их в комментариях. Спасибо за внимание, пока!   








5 комментариев на «Как составить правильный robots.txt для WordPress?»

  1. Dichter:

    Сейчас попробую сделать. Давно искал подобное, спасибо автору — помогли. Скажите, пожалуйста, у меня планшет с операционной системой виндовс, я могу применить это туда или нет?

    [Ответить]

    Dmitriy (admin) :

    Dichter, для создания robots.txt Вы можете использовать и планшет.

    [Ответить]

  2. Nilson:

    Я хочу что б у меня категории на сайте индексировались. Что изменить в robots.txt?

    [Ответить]

    Dmitriy (admin) :

    Nilson, убедитесь, что в robots.txt нет такой запрещающей директивы: Disallow: /category. Этого, в принципе, достаточно. Но для полной уверенности можно прописать и разрешающую директиву: Allow: /category.

    [Ответить]

    Nilson :

    Спасибо

    [Ответить]

Ваш комментарий