Сайт и robots.txt.

Робот для поисковиковЗачем на сайт устанавливать «robots.txt», и что это за зверь, серьёзный он или нет? Есть этот робот на нашем сайте, или нет роботы поисковики, свою работу сделают добросовестно и по мере сил просканируют весь сайт. Вот здесь и зарыта собака, «по мере сил», «весь сайт».

Это означает, что робот-поисковик, не найдя «robots.txt», начнёт сканировать с первого файла до своего запрограммированного числа, или времени. В первую очередь попадут служебные программы, и всевозможные инструкции. Затем в поле зрения попадут наши статьи, комментарии и фотографии. Наша ситуация понятна?! О роли robots.txt можно почитать в статье «сайт и его индексация».

Попав на сайт и увидев «robots.txt», поисковик смотрит, что запрещено к индексации и работает непосредственно с контентом. Получается, что мы управляем поисковиком, куда идти и что смотреть, накладываем «табу» на определённые файлы. Нас это радует, и мы устанавливаем «robots.txt». Подходить к созданию этого файла надо очень серьёзно. Любая ошибка (опечатка, пробел), отрицательно скажется на продвижении сайта в поисковиках. Найдите время проанализировать содержание и проверить на ошибки.

«robots.txt» — это обычный текстовый файл, который пишется в текстовом документе (блокноте). Он состоит из названия и перечисления запретов. Располагается он по адресу —  http://адрес нашего сайта/robots.txt и находится в корне сайта. Отсюда следует, что проверить его наличие и вид очень просто. В браузер пишем адрес сайта и добавляем  —  robots.txt . Используются только маленькие латинские буквы. Текст начинается с указания, для кого он предназначен: оператор (имя поисковика)  — User-agent: *. Звёздочка обозначает- для всех. Однако Яндекс любит персональное обращение —  User-agent: Yandex . Если есть персональное обращение, то выполняется только оно, всё остальное игнорируется.

Существуют две основные директивы: Disallow – запретить,  Allow – разрешить. Вначале идёт директива «Allow», затем «Disallow», это критично для Яндекса. В последнее время директива «Allow» не используется. Так как «robots.txt» запрещающий, а не разрешающий.  Директива  —  Disallow: /  —  запрещает всё индексировать, без слеш (/), запрета нет. Яндекс принимает директиву – «Host», она указывает на главный домен сайта, и пишется после директив «Disallow».

Можно использовать символ  «#»  —  строка, идущая после него, является комментарием, и робот её не читает. Можно написать эти комментарии для себя, чтобы знать, что мы натворили.

Пустая строка обозначает конец действия оператора, далее должен идти новый оператор, для другого поисковика, или идти указание на сайт. Дальше углубляться не буду. В качестве примеру привожу свой «robots.txt» и добавляю пояснения в комментариях (#).

User-agent: Mediapartners-Google
Disallow:# Разрешает роботу рекламы индексировать весь сайт

User-agent: * # указание для всех роботов. Яндекс игнорирует, есть внизу.

Disallow: /wp-login.php # запрет ко всему содержащее «wp-login.php»

Disallow: /wp-register.php

Disallow: /feed/ # всё, что находится в папке «feed» недоступно

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins # запрет на файл «plugins» в папке «wp-content»

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments # адреса оканчивающиеся на «comments» запрещены к инд.

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s= # запрещены страницы поиска по сайту.

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

Host: buttexarx.ru # Только для Яндекса. Определяет главное зеркало сайта.

Sitemap: /sitemap.xml.gz

Sitemap: /sitemap.xml # Указывается путь к карте сайта

Этот «robots.txt» создан по рекомендации школы «Твой Старт». Мною добавлены комментарии. А также добавлено разрешение роботу рекламы посещать весь сайт. Можете его ставить к себе, работает отлично. Надо заменить «buttexarx.ru» на название своего сайта. Перед установкой робота из любого источника пробежите его глазами на наличие ошибок. Ошибки рассмотрены в статье «Ошибки robots.txt»

Буду благодарен всем, кто поправит меня в комментариях. Спасибо.

Комментарии закрыты, но трэкбэки и Pingbacks открыты.