Сайт и robots.txt.

Робот для поисковиков    Зачем на сайт устанавливать «robots.txt», и что это за зверь, серьёзный он или нет? Есть этот робот на нашем сайте, или нет роботы поисковики, свою работу сделают добросовестно и по мере сил просканируют весь сайт. Вот здесь и зарыта собака, «по мере сил», «весь сайт». Это означает, что робот-поисковик, не найдя «robots.txt», начнёт сканировать с первого файла до своего запрограммированного числа, или времени. В первую очередь попадут служебные программы, и всевозможные инструкции. Затем в поле зрения попадут наши статьи, комментарии и фотографии. Наша ситуация понятна?! О роли robots.txt можно почитать в статье «сайт и его индексация».

Попав на сайт и увидев «robots.txt», поисковик смотрит, что запрещено к индексации и работает непосредственно с контентом. Получается, что мы управляем поисковиком, куда идти и что смотреть, накладываем «табу» на определённые файлы. Нас это радует, и мы устанавливаем «robots.txt». Подходить к созданию этого файла надо очень серьёзно. Любая ошибка (опечатка, пробел), отрицательно скажется на продвижении сайта в поисковиках. Найдите время проанализировать содержание и проверить на ошибки.

«robots.txt» - это обычный текстовый файл, который пишется в текстовом документе (блокноте). Он состоит из названия и перечисления запретов. Располагается он по адресу -  http://адрес нашего сайта/robots.txt и находится в корне сайта. Отсюда следует, что проверить его наличие и вид очень просто. В браузер пишем адрес сайта и добавляем  -  robots.txt . Используются только маленькие латинские буквы. Текст начинается с указания, для кого он предназначен: оператор (имя поисковика)  - User-agent: *. Звёздочка обозначает- для всех. Однако Яндекс любит персональное обращение -  User-agent: Yandex . Если есть персональное обращение, то выполняется только оно, всё остальное игнорируется.

Существуют две основные директивы: Disallow – запретить,  Allow – разрешить. Вначале идёт директива «Allow», затем «Disallow», это критично для Яндекса. В последнее время директива «Allow» не используется. Так как «robots.txt» запрещающий, а не разрешающий.  Директива  -  Disallow: /  -  запрещает всё индексировать, без слеш (/), запрета нет. Яндекс принимает директиву – «Host», она указывает на главный домен сайта, и пишется после директив «Disallow».

Можно использовать символ  «#»  -  строка, идущая после него, является комментарием, и робот её не читает. Можно написать эти комментарии для себя, чтобы знать, что мы натворили.

Пустая строка обозначает конец действия оператора, далее должен идти новый оператор, для другого поисковика, или идти указание на сайт. Дальше углубляться не буду. В качестве примеру привожу свой «robots.txt» и добавляю пояснения в комментариях (#).

User-agent: Mediapartners-Google
Disallow:# Разрешает роботу рекламы индексировать весь сайт

 

User-agent: * # указание для всех роботов. Яндекс игнорирует, есть внизу.

Disallow: /wp-login.php # запрет ко всему содержащее «wp-login.php»

Disallow: /wp-register.php

Disallow: /feed/ # всё, что находится в папке «feed» недоступно

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins # запрет на файл «plugins» в папке «wp-content»

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments # адреса оканчивающиеся на «comments» запрещены к инд.

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s= # запрещены страницы поиска по сайту.

 

 

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /feed/

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */comments

Disallow: /category/*/*

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /?s=

Host: buttexarx.ru # Только для Яндекса. Определяет главное зеркало сайта.

 

Sitemap: http://buttexarx.ru/sitemap.xml.gz

Sitemap: http://buttexarx.ru/sitemap.xml # Указывается путь к карте сайта

 

Этот «robots.txt» создан по рекомендации школы «Твой Старт». Мною добавлены комментарии. А также добавлено разрешение роботу рекламы посещать весь сайт. Можете его ставить к себе, работает отлично. Надо заменить «buttexarx.ru» на название своего сайта. Перед установкой робота из любого источника пробежите его глазами на наличие ошибок. Ошибки рассмотрены в статье «Ошибки robots.txt»

Буду благодарен всем, кто поправит меня в комментариях. Спасибо.

Получается, что компьютер очень сложная бытовая техника.

Статья подошла к концу. Надеюсь, помощь оказал. Вопросы, советы и рекомендации можете мне писать по форме «Обратная связь», размещённой на одноимённой странице.  Свои мнения оставляйте в комментариях. Все сайты, которые встречаю в комментариях, я посещаю, оставляю твиты. Приглашайте в гости!

Если вы оставили комментарий, обязательно получите на него ответ, Вам  придёт ответ на почту. Учтите, если это первое письмо с данного адреса, оно может попасть в спам.

16 thoughts on “Сайт и robots.txt.

    • Сайт с robots.txt индексируется надёжнеё. Не понял, зачем вы поставили временную задержку индексации страниц, да ещё 4 сек. Пока не увидел, чтобы у вас каждую секунду менялся контент.
      В роботе у вас одна ощибочка. В пропуске между операторами есть пробел, а эта строка должна быть пустой.

    • Если вы его ставили по уроку, то и задумываться особенно не надо. Скоре всего у вас в этом файле есть одна ошибка. В пустой строке закрался пробел. Его надо убрать. У всех СтартАповцев он есть. Сейчас работаю над статьёй ошибки в файле «robots.txt».

  1. Согласна с вами, этот файл важен для блога, но нужно хорошо разобраться в тонкостях и правильно его настроить. А так можно столько «дров наломать»…

    • Во все тонкости не лез. Для себя взял стандартный файл школы, и не много посмотрел, что и зачем, куда сувать если потребуется.
      Пользу это принесло. Нашёл достаточно ошибок, которые наделал, когда ставил по уроку в сайт robots.txt. Особой разницы в работе поисковиков не будет, но какой-то плюсик получу.

  2. В моём роботе ещё есть -Grawl-delay:4 может объясните значение этой записи, а вот disallow:/wp-login.php у меня нет почему-то. Тоже делала по рекомендации школы старт ар.

    • Disallow:/wp-login.php — это запрет на индексацию входа а админ панель, и наверное, консоли админки. Сейчас посмотрел по школе он там есть.
      Grawl-delay:4 — эта директива запрещает роботам индексировать сайт на 4 секунды. Роботам даётся отдых на 4 сек. Эта директива необходима большим сайтам, где обновление идёт посекундно, и роботы от туда не вылазят. К нам они заглядывают, в лучшем случае, разочек в сутки.

  3. Без «robots.txt» в нашем деле никуда! Обязательно нужно установить этот фал в свой блог и все пойдет как по маслу!

    • Файл «robots.txt» необходим конечно на сайте. Но его значение не так уж велико в раскрутке сайта. В первую очередь необходим наш собственный труд.
      Посмотрел ваш «robots.txt», и возник вопрос, что за поисковик «Mediapartners-Google»? Ему вы разрешили индексировать всё. Почему после него нет пустой строки?

  4. Я не разбиралась с этим файлом. Дали его в школе Старт Ап. Я поставила. Сказали через месяца 2-3, что там ошибка и как исправить. И я исправила. И больше я о нем не задумываюсь.

    • С этим robots.txt, так и есть. Правильно вставил и можно забыть до следующего сайта. Ради интереса заглянул. Ошибки нет.

  5. Очень полезные объяснения для новичков. А то в свое время сам до всего этого доходил. Но директивы в роботс имеют больше рекомендательный характер. Поисковые роботы по своему усмотрению могут им и не следовать.

    • Интересно,зачем же тогда сами поисковики рекомендуют составлять этот роботс?

      • Все верно, чтобы не делать лишней работы. Но нос свой могут сунуть куда захотят. Обратите внимание, что Гугл индексирует много больше страниц и не все из них полезные.

        • Честно говоря, я так и не понял, что такое страница?
          Количество индексируемых страниц примерно одинаково. Гугл выводит сопли сразу, Яндекс — по запросу.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *