Ошибки robots.txt.
Поставили, или хотим ставить на сайт robots.txt, содержание его надо хотя бы просмотреть на наличие грубых ошибок. Зачем его ставить мы рассмотрели в статье «Сайт и robots.txt». С ошибками, фатального вреда robots.txt сайту не нанесёт, однако индексацию его может замедлить. Со временем ошибки устранятся и всё нормализуется.
Неприятный осадок всё равно останется. Просмотрел много вариантов составления этого файла. Все они отличаются друг от друга совсем незначительно. Ошибка может закрасться в любой файл. Пример — школа Старт Ап. Отличный, работающий robots.txt, однако с ошибкой – пробел в пустой строке. Теперь они исправили этот казус, и известили о нём, правда, своей вины не признали. Многие ошибки чисто механические, выполняется заказ на сайт, и в спешке путаются местами строчки, или чередуются. Заметить ошибки на сайте можно только спустя довольно долгое время.
Путают инструкции директивы и оператора:
User-agent: /
Disallow: Yandex
Следует написать
User-agent: Yandex
Disallow: /
В инструкции несколько каталогов:
Disallow: /feed/ /cgi-bin/ /comments/
Сложно представить, как поведут себя роботы. Я бы на их месте выполнил первую и забил на остальное. Следует писать:
Disallow: /feed/
Disallow: /cgi-bin/
Disallow: /comments/
Не правильное написание имени файла:
Допустимо только :
robots.txt
Не заполняется User-agent
User-agent:
Disallow:
Следует писать:
User-agent: *
Disallow:
В директиве «Host» используется «Url»
Помните «Host» применяется только для Яндекса.
User-agent: *
Disallow: /comments
Host: http://www.site.ru/
Следует писать:
User-agent: Yandex
Disallow: /comments
Host: www.site.ru
Используются символы подставки (*) в «Disallow»:
User-agent: *
Disallow: file*.html
Необходимо перечислять все файлы.
Если не хотите мучиться с написанием «robots.txt» ставьте пустой файл «robots.txt». Как говорится — бережёного бог бережёт.
Откажитесь от заглавных букв. По инерции они могут попасть и в названия файлов. Найдены они не будут.
Не надо перечислять все файлы директории для закрытия. Особой ошибки не будет, но проще – лучше.
User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Так проще:
User-agent: *
Disallow: /AL/
Disallow: /Az/
«Host» используется только с Яндексом.
User-agent: *
Disallow: /css/
Host: www.example.com
Пишем только так
User-agent: *
Disallow: /css/
User-agent: Yandex
Disallow: /css/
Host: www.example.com
Присутствие «Disallow:» обязательно. Даже если запрещать ничего не хочем.
User-agent: Yandex
Host: www.example.com
Правильно писать:
User-agent: Yandex
Disallow:
Host: www.example.com
Между операторами обязательно пустые строки без пробелов.
User-agent: *
Disallow: /wp-login.php
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /*?*
Disallow: /?s=
Host: buttexarx.ru
Sitemap: /sitemap.xml.gz
Sitemap: /sitemap.xml
Должно быть так: (найдите одно отличие, есть пробел в верхнем тексте)
User-agent: *
Disallow: /wp-login.php
Disallow: /*?*
Disallow: /?s=
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /*?*
Disallow: /?s=
Host: buttexarx.ru
Sitemap: /sitemap.xml.gz
Sitemap: /sitemap.xml
У меня тоже был пробел. Исправил, удалил. Смотрю на хостинге его нет, а на сайте первый вариант остался. Подожду месячишку. Интересно эта причина или нет (robots.txt), но Яндекс проиндексировал эту статью уже через два часа, после публикации.
Конечно, чтобы лезть в эти премудрости бытовая техника под названием компьютер надо изучить, как правильно всё называется, и что обозначают все эти непонятные названия. Пока я понял, что файл – это место, куда все можно положить, и название его пишется маленькими латинскими буковками с расширением через точку. УРА!
Комментарии закрыты, но трэкбэки и Pingbacks открыты.