Ошибки robots.txt.

Поставили, или хотим ставить на сайт robots.txt, содержание его надо хотя бы просмотреть на наличие грубых ошибок. Зачем его ставить мы рассмотрели в статье «Сайт и robots.txt». С ошибками, фатального вреда robots.txt сайту не нанесёт, однако индексацию его может замедлить. Со временем ошибки устранятся и всё нормализуется.

Неприятный осадок всё равно останется. Просмотрел много вариантов составления этого файла. Все они отличаются друг от друга совсем незначительно. Ошибка может закрасться в любой файл. Пример — школа Старт Ап. Отличный, работающий robots.txt, однако с ошибкой – пробел в пустой строке. Теперь они исправили этот казус, и известили о нём, правда, своей вины не признали. Многие ошибки чисто механические, выполняется заказ на сайт, и в спешке путаются местами строчки, или чередуются. Заметить ошибки на сайте можно только спустя довольно долгое время.

Путают инструкции директивы и оператора:

User-agent: /
Disallow: Yandex

Следует написать

User-agent: Yandex
Disallow: /

В инструкции несколько каталогов:

Disallow: /feed/ /cgi-bin/ /comments/

Сложно представить, как поведут себя роботы. Я бы на их месте выполнил первую и забил на остальное. Следует писать:

Disallow: /feed/
Disallow: /cgi-bin/
Disallow: /comments/

Не правильное написание имени файла:

Допустимо только :

robots.txt

Не заполняется User-agent

User-agent:
Disallow:

Следует писать:

User-agent: *
Disallow:

В директиве «Host» используется «Url»

Помните «Host» применяется только для Яндекса.

User-agent: *
Disallow: /comments
Host: http://www.site.ru/

Следует писать:

User-agent: Yandex
Disallow: /comments
Host: www.site.ru

Используются символы подставки (*) в «Disallow»:

User-agent: *
Disallow: file*.html

Необходимо перечислять все файлы.

Если не хотите мучиться с написанием «robots.txt» ставьте пустой файл «robots.txt». Как говорится — бережёного бог бережёт.

Откажитесь от заглавных букв. По инерции они могут попасть и в названия файлов. Найдены они не будут.

Не надо перечислять все файлы директории для закрытия. Особой ошибки не будет, но проще – лучше.

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Так проще:

User-agent: *
Disallow: /AL/
Disallow: /Az/

«Host» используется только с Яндексом.

User-agent: *
Disallow: /css/
Host: www.example.com

Пишем только так

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Присутствие «Disallow:» обязательно. Даже если запрещать ничего не хочем.

User-agent: Yandex
Host: www.example.com

Правильно писать:

User-agent: Yandex
Disallow:
Host: www.example.com

Между операторами обязательно пустые строки без пробелов.

User-agent: *

Disallow: /wp-login.php

Disallow: /*?*

Disallow: /?s=

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /*?*

Disallow: /?s=

Host: buttexarx.ru

Sitemap: /sitemap.xml.gz

Sitemap: /sitemap.xml

Должно быть так: (найдите одно отличие, есть пробел в верхнем тексте)

User-agent: *

Disallow: /wp-login.php

Disallow: /*?*

Disallow: /?s=

User-agent: Yandex

Disallow: /wp-login.php

Disallow: /*?*

Disallow: /?s=

Host: buttexarx.ru

Sitemap: /sitemap.xml.gz

Sitemap: /sitemap.xml

У меня  тоже был пробел. Исправил, удалил. Смотрю на хостинге его нет, а на сайтеПробел вместо пустой строки. первый вариант остался. Подожду месячишку. Интересно эта причина или нет (robots.txt), но Яндекс проиндексировал эту статью уже через два часа, после публикации.

Конечно, чтобы лезть в эти премудрости бытовая техника под названием компьютер надо изучить, как правильно всё называется, и что обозначают все эти непонятные названия. Пока я понял, что файл – это место, куда все можно положить, и название его пишется маленькими латинскими буковками с расширением через точку. УРА!

Комментарии закрыты, но трэкбэки и Pingbacks открыты.