Всем привет, вас снова приветствует SEOinSoul – автор SEO блога seoinsoul.ru, можете подписаться на RSS и зафоловить меня в Twitter. Это уже второй мой гостевой на блоге Димка, итак начнем…
Все наверняка знают, что такое robots.txt, для чего он нужен и с чем его едят. Если кто же все-таки не в курсе, robots.txt – это текстовый файл, в котором содержатся инструкции для роботов поисковых систем.
В нем можно запрещать индексацию страниц или разделов на сайте, указывать правильное зеркало домена, указывать наличие sitemap.xml. Есть еще много различных функций команд, но мы поговорим о самых основных, озвученных мною. И рассмотрим это на примере самого популярного на сегодняшний момент движка WordPress.
Составление этого файла должно быть одним из первых действий при создании сайта или его продвижении (если этого файла еще нет). Естественно, главное именно правильное его составление, т.к. при каких-либо недочетах могут возникнуть определенные проблемы с индексацией. Бытует мнение, которое несколько раз доказано на практике, что ПС иногда плюют на robots.txt и индексируют все подряд, но это очень большая редкость и уже совсем другая история Итак, какие команды потребуются нам для создания правильного роботса:
User-Agent
Указывается имя робота, к которому применяются правила, описанные в robots.txt (не должно быть пустым)
Allow и Disallow
Разрешается, и, соответственно, запрещается доступ к некоторым разделам сайта, либо к всему ресурсу целиком. Allow поддерживается только Яндексом и Гуглом.
Сначала нужно использовать директиву Allow, а только после нее Disallow, и между ними не должно быть пустой строки, как собственно и с директивой User-Agent.
Host
Указание главного зеркала сайта. Используется только для Яндекса, который пишет по этому поводу: «Данная директива не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом»
Sitemap
Указание роботу наличия и пути карты сайта в формате xml
Существуют также спецсимвол *, который означает любую последовательность символов. Теперь перейдем к самому созданию robots.txt - создаем обычный текстовый файл и начинаем с первой директивы User-Agent. Вот список самых актуальных ботов для РУнета – Yandex, YandexBlog, Googlebot, StackRambler, msnbot (бот Bing).
Если же обычный сайт, тогда лично для себя, я не выделяю конкретных ботов, а пишу единое правило для всех, если блог – тогда вначале нужно выделить бота Яндекс.Блогов и разрешить ему все, т.к. он ходит только по фидам и в админку и прочие не нужные разделы сам не полезет:
User-agent: YandexBlog
Disallow: User-Agent: *
…
Если будете использовать несколько юзерагентов, тогда перед каждым последующим обязательно должна быть пустая строка! И начинать лучше с конкретных роботов, а только потом использовать *. Так, теперь директивы Allow и Disallow.
Allow: /wp-content/uploads/
#здесь мы открываем доступ только к папке uploads для трафика по картинкам (в ней хранятся изображения загруженные через админку wp), т.к. затем будем закрывать от индексации папку более верхнего уровня wp-content.
Переходим к Disallow - очень важная директива. С ее помощью можно закрывать разделы, в которых дублируются контент – это теги, категории, архивы, календарь и т.д. Что и как закрывать, я приведу пример, а дальше дело за вами, т.к. могу сказать по своему и чужому опыту, что без каких-либо других грубых нарушений (проблемы с хостингом, откровенный ГС, некачественный рерайт или вообще украденный контент) за дублирование текста в рамках одного домена - не будет наложено никаких санкций и фильтров!
Поэтому не бойтесь этого, делая нормальные, качественные сайты с уникальным контентом (пусть даже сателлиты). Сначала закрываем служебные директории (страницы регистрации и авторизации, админку, страницы темы, плагины):
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Теперь уже выбор за вами, какие разделы вашего сайта или блога на WP, я лишь приведу пример закрытия популярных разделов:
Disallow: /tag
#вполне можно продвигать страницы тегов в поисковых системах, поэтому дважды подумайте перед закрытием их от индексации
Disallow: /category
Disallow: /archive
#будьте осторожны, обратите внимание на то, каким образом у вас в блоге выводятся статьи, т.к. в блоге статьи могут иметь урл – http://ваш сайт/archive/123, и вы можете закрыть их от индексации
Disallow: /author
#если таковой присутствует в вашем шаблоне
Теперь закрываем от индексации фиды, различные трекбеки, комментарии в вашем фиде и страницы поиска по сайту:
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
И наконец, две последние директивы:
Host: ваш сайт.ru
Sitemap: http:// ваш сайт.ru/sitemap.xml
С путем к карте сайта в формате xml думаю все понятно, а при указании главного зеркала, лично я почти всегда использую вариант без www, т.к. почти в каждом случае доменное имя так смотрится и запоминается лучше. Если же домен лучше упоминать с www, тогда укажите это в директиве Host.
Также существует еще несколько директив, которые помогут владельцам сайтов, например: Crawl-delay, Clean-param (о применении которого я писал, после выхода этой директивы - "Яндекс вводит новую директиву для robots.txt"). Описание и применение всех этих директив, применительно к самой популярной поисковой системе - Яндексу, можно найти в его хелпе. В итоге у нас получается следующий robots.txt, который полностью готов для применения его на своем блоге:
User-agent: YandexBlog
Disallow: User-Agent: *Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=Host: ваш сайт.ru
Sitemap: http://ваш сайт.ru/sitemap.xml
Здесь можно оставить свои комментарии. Выпуск подготовленплагином wordpress для subscribe.ru
Комментариев нет:
Отправить комментарий