Файл robots.txt Файл robots.txt – текстовый файл, расположенный в корневой директории сайта, где прописываются инструкции для краулера (поискового робота). Сии инструкции могут:
а) запретить к индексации определенные разделы или страницы сайта или вообще запредить доспут к сайту
б)указать на правильное «зеркалирование» домена
в) содержать рекомендацию краулеру соблюдать указанный временной интервал между скачиванием документов с сервера и некоторое иное.
Файл robots.txt может быть только один.
При заходе поискового робота на сайт, изначально ведется поиск данного файла, при нахождении которого робот начинает анализ инструкций указанных в robots.txt.
Содержание robots.txt:
Текстовый файл может содержать следующие команды:
-User-agent: – имя поисковика (например Yandex), при наличии значка * (User-agent: *) роботу дается указание работать со всеми поисковыми системами.
-Disallow: списки запрещений роботу
-Allow: списки разрешений поисковому роботу
-# комментарии
Причины, для использования файла robots.txt
1. Необходимо ввести запрет на индексирование сайта целиком поисковиками (всеми или определенному списку). Допустим ваш сайт еще в разработке и вы не хотите чтобы пользователю показывали “сырой” материал, либо ваш сайт в разработке. Ведь недоделанные сайты не внушают доверия людям.
2. Не все роботы, заходящие на сайт, на службе поисковых машин! В Интернете есть роботы посещающие сайты для того чтобы просканировать ресурс на наличие e-mail адресов. При нахождении которых, они (адреса) добавляются в базу данных “посетителя”, а в дальнейшем используются для рассылки СПАМ’a.
3. При наличии на сайте особого раздела, лишь для определенных пользователей необходимо ограничить туда вход и краулерам. Иначе ваши “закрытые” для стороннего взора страницы проявятся всему миру.
Рекомендуемый robots.txt для WPress:
——————————————————————————————
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://yourdomain.ru/sitemap.xml
_____________________________________