Мой robots.txt для WordPress
Сел на досуге составил robots.txt для своих сайтов на WordPress. Не то чтобы оно мне было необходимо, так как я считаю что если контент качественный, то за дубли в пределах одного сайта санкций со стороны поисковых систем применяться не будет, но все же обговорить с поисковыми системами некоторые моменты индексации моих сайтов сейчас понадобилось (а ведь до этого год простояли со стандартным файлом).
Итак, давайте взглянем на составленный мной robots.txt, скажу сразу он не претендует на звание универсального для всех и каждого, но все же его можно брать за основу:
User-agent: *
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /goto/User-Agent: Yandex
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /goto/
Host: site.ru
Думаю стоит обговорить что здесь зачем.
User-agent – директива управляющая доступом роботов к Вашему сайту, в первую очередь робот приходящий на Ваш сайт смотрит именно на нее, ибо от того что в ней указано зависит то что будет делать робот на Вашем сайта.
User-agent: * – значит что все директивы идущие под этой сторой применимы для всех поисковых роботов
User-Agent: Yandex – означает что директивы идущие под этой строкой применимы только для поискового робота Яндекса, причем в этом случае, когда указано имя поискового робота, записи идущие под строкой “User-agent: *” вплоть до “User-Agent: Yandex” будут игнорироваться роботом Яндекса.
Как видите в моем robots.txt прописаны правила для роботов всех поисковых машин и для робота Яндекса отдельно, они практически идентичны, но в инструкции для Яндекса на одну строку больше, ввиду особенностей синтаксиса robots.txt персонально для Яндекса.
Disallow – директива запрещающая доступ робота к каким-либо частям сайта. Рассмотрим что же я запретил индексировать в своем файле:
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /goto/
Первые две строки запрещают индексацию папок wp-includes и wp-admin, ибо незачем поисковым роботам лазить по важным для WordPress папкам, затем следуют 3 файла из корневой папки все того же WordPress, индексация которых нам совершенно ни к чему. Ну действительно, зачем нам в выдаче по названию нашего сайта ссылка “http://site.ru/xmlrpc.php”?
Ну и последняя строчка “Disallow: /goto/” применительно для блогов использующих плагин WP No External Links, который подменяет внешние ссылки на внутренние вида: “http://site.ru/goto/http://site2.ru/”. Прописав указанную строку в robots.txt мы запрещаем роботу ходить по этим ссылкам.
Подобную строку можно написать и для других подобных плагинов, например для плагина (J)ExR она будет выглядеть слудующим образом: Disallow: /jexr/
Ну и наконец последняя строка, которая указывается только для робота Яндека: Host: site.ru
Директива Host указывает роботу Яндекса главное зеркало Вашего сайта, которое и будет участвовать в выдаче поисковой системы, то есть если у Вашего сайта еще есть зеркала вида www.site.ru и site3.ru и в их файлах robots.txt Вы пропишете “Host: site.ru” то с наибольшей вероятностью (Яндекс не гарантирует этого) в выдаче будет учавствовать именно тот самый site.ru
Введя в поиске “robots.txt для WordPress” Вы будите приятно удивлены количеством результатов – их будет много, но часть из них повторяется, а часть похожи на то что я написал здесь, только с добавленными запретами на индексации папки wp-content, тегов, рубрик, фидов, поиска и тому подобного.
Почему этого нет у меня?
Папку wp-content я не закрываю потому что у меня там нет ничего страшного, а вот картинки к постам должны присутствовать в выдаче.
Теги и рубрики – собирают дополнительный трафик по низкочастотным запросам, поэтому я их и не закрываю для роботов, хотя и на некоторых блогах выборочно закрываю то или иное от взора Яндека при помощи <noindex>.
Фид – Яндекс сам исключает его из выдачи в чем можно убедится заглянув в панель Яндекс.Вебмастер.
Для тех кто хочет самостоятельно разобраться с синтаксисом и правилами составления robots.txt вот несколько полезных ссылок:
Использование robots.txt | Яндекс
Блокировка и удаление страниц с помощью файла robots.txt | Google
Русский сайт посвященный robots.txt (правда там сейчас ведутся какие-то работы и материалы можно только распечатывать)
—–
А Вы знали что родоначальником идеи шкафов купе стал еще Наполеон - ему не нравился беспорядок в комнатах офицеров, и он приказал им прятать все вещи за ширмой, позже эту идею развили американцы создавшие первые подобные шкафы. И если Вы вдруг ищите шкафы купе в москве, попробуйте посмотреть информацию по ссылке, может найдете что-нибудь интересное для себя.
Апрель 3rd, 2010 at 16:55
Не вижу смысле в этой секции
User-Agent: Yandex
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /goto/
с осени 2009 года Yandex теперь адекватно понимает
User-Agent: *
Апрель 3rd, 2010 at 17:11
Есть ссылка где можно почитать об этом?
Апрель 3rd, 2010 at 17:43
“с осени 2009 года Yandex теперь адекватно понимает
User-Agent: *”
Ой, да что вы!! А Яндекс то и не знает! Не понимает от эту директиву. Доки курите (help.yandex.ru/webmaster/?id=996567#996568)
Апрель 3rd, 2010 at 20:44
Мне кажется tags тоже нужно закрыть к индексации
Апрель 3rd, 2010 at 21:13
Уважаемая Inga вы курите доки очень старые не которым уже 3 года. К сожалению всем известно что Яндекс не адекватен, здесь тоже самое, Нятвуч давно не обновлял Help. Следите за новостями которые платоны выкладывают на support форумах.
Имею 20 проектов личный проектов и 30 гостевых везде robots * адекватно воспринимается.
К тому же читайте robotstxt.org, где четко расписан формат robots
Например до той же осени Yandex рекомендовал использовать директиву Allow. Хотя по всем стандартам ее просто нет. Но после определенного рода давления web мастеров на форумах yandex сломался и стал более адекватно принимать общемировой стандартный robots.txt
То что написано в одном источнике еще не говорит, что это правда. На будущее, проверяйте факты.
Апрель 6th, 2010 at 0:08
я еще фиды закрываю, на них яндекс ругается, лишний + в карму сайта
папку с контентом тоже закрываю, а папку с загружеными фотками отдельно прописываю для индексации.
+ когда был хостинг с ограничением по трафику – закрывал полностью от всяких роботов, которые зеркала и архивы интернета делают.
карту сайта прописать полезно, хотя плагин сам добавляет эту строчку.
Апрель 9th, 2010 at 15:06
Я не знаю что там пишут но всеже лично я придерживаюсь следующего текста в роботсе
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /tag/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
User-agent: *
Disallow:
Sitemap:
не судите строго но лучше конкретно указать что яндексу делать.
Август 5th, 2010 at 17:02
у меня лично такой же как и у этого сайта robots.txt
все нормально индексирует и народ идет потихоньку. ;)
Август 29th, 2010 at 20:40
админ, у тебя правильно все =) я сам как оптимизатор тебе говорю ;)
у некоторых тупость какая то а у тебя нормально все.. спи спокойной :d