Сайт и robots.txt.
Зачем на сайт устанавливать «robots.txt», и что это за зверь, серьёзный он или нет? Есть этот робот на нашем сайте, или нет роботы поисковики, свою работу сделают добросовестно и по мере сил просканируют весь сайт. Вот здесь и зарыта собака, «по мере сил», «весь сайт».
Это означает, что робот-поисковик, не найдя «robots.txt», начнёт сканировать с первого файла до своего запрограммированного числа, или времени. В первую очередь попадут служебные программы, и всевозможные инструкции. Затем в поле зрения попадут наши статьи, комментарии и фотографии. Наша ситуация понятна?! О роли robots.txt можно почитать в статье «сайт и его индексация».
Попав на сайт и увидев «robots.txt», поисковик смотрит, что запрещено к индексации и работает непосредственно с контентом. Получается, что мы управляем поисковиком, куда идти и что смотреть, накладываем «табу» на определённые файлы. Нас это радует, и мы устанавливаем «robots.txt». Подходить к созданию этого файла надо очень серьёзно. Любая ошибка (опечатка, пробел), отрицательно скажется на продвижении сайта в поисковиках. Найдите время проанализировать содержание и проверить на ошибки.
«robots.txt» — это обычный текстовый файл, который пишется в текстовом документе (блокноте). Он состоит из названия и перечисления запретов. Располагается он по адресу — http://адрес нашего сайта/robots.txt и находится в корне сайта. Отсюда следует, что проверить его наличие и вид очень просто. В браузер пишем адрес сайта и добавляем — robots.txt . Используются только маленькие латинские буквы. Текст начинается с указания, для кого он предназначен: оператор (имя поисковика) — User-agent: *. Звёздочка обозначает- для всех. Однако Яндекс любит персональное обращение — User-agent: Yandex . Если есть персональное обращение, то выполняется только оно, всё остальное игнорируется.
Существуют две основные директивы: Disallow – запретить, Allow – разрешить. Вначале идёт директива «Allow», затем «Disallow», это критично для Яндекса. В последнее время директива «Allow» не используется. Так как «robots.txt» запрещающий, а не разрешающий. Директива — Disallow: / — запрещает всё индексировать, без слеш (/), запрета нет. Яндекс принимает директиву – «Host», она указывает на главный домен сайта, и пишется после директив «Disallow».
Можно использовать символ «#» — строка, идущая после него, является комментарием, и робот её не читает. Можно написать эти комментарии для себя, чтобы знать, что мы натворили.
Пустая строка обозначает конец действия оператора, далее должен идти новый оператор, для другого поисковика, или идти указание на сайт. Дальше углубляться не буду. В качестве примеру привожу свой «robots.txt» и добавляю пояснения в комментариях (#).
User-agent: Mediapartners-Google
Disallow:# Разрешает роботу рекламы индексировать весь сайт
User-agent: * # указание для всех роботов. Яндекс игнорирует, есть внизу.
Disallow: /wp-login.php # запрет ко всему содержащее «wp-login.php»
Disallow: /wp-register.php
Disallow: /feed/ # всё, что находится в папке «feed» недоступно
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins # запрет на файл «plugins» в папке «wp-content»
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments # адреса оканчивающиеся на «comments» запрещены к инд.
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s= # запрещены страницы поиска по сайту.
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: buttexarx.ru # Только для Яндекса. Определяет главное зеркало сайта.
Sitemap: /sitemap.xml.gz
Sitemap: /sitemap.xml # Указывается путь к карте сайта
Этот «robots.txt» создан по рекомендации школы «Твой Старт». Мною добавлены комментарии. А также добавлено разрешение роботу рекламы посещать весь сайт. Можете его ставить к себе, работает отлично. Надо заменить «buttexarx.ru» на название своего сайта. Перед установкой робота из любого источника пробежите его глазами на наличие ошибок. Ошибки рассмотрены в статье «Ошибки robots.txt»
Буду благодарен всем, кто поправит меня в комментариях. Спасибо.
Комментарии закрыты, но трэкбэки и Pingbacks открыты.