Вполне возможно что вы даже впервые слышите про существование этих файлов и не знаете для чего они нужны. Сегодня я расскажу зачем они нужны и как их правильно настроить. Файл robots txt находится в корне вашего сайта (если вы пользуетесь cms), исходя из названия можно понять, что он предназначен для поисковых роботов, а именно он предупреждает какие страницы и разделы вашего сайта вообще не индексировать. Поисковые роботы первым делом как раз смотрят на наличие этого файла (если его нет, то и запрета на индексацию нет), потом уже сканируют его.

Файл humans txt аналог robots txt, но опять же из названия понятно, что этот сайт для людей. Он служит для размещения информации о создателях сайта, это может пригодится, чтоб доказать авторство сайта. Впрочем его функция не так важна, да и он (насколько мне известно) воспринимается только поисковой системой Google.

Настройка robots txt

Настройка файла robots txt дело не хитрое, для этого нужно быть знакомым с его синтаксисом. Если вы не пользуетесь cms и у вас нет админки, то скорей вам не нужен этот файл, можете его не создавать, либо создать со следующим описание:

User-agent:*
Disallow:

User-agent - показывает для каких систем запрещать индексирования, если "*" то относится ко всем. Обозначение поисковых систем следующее:

  • Бот поисковой машины Яндекса – «Yandex»
  • Бот поисковой машины Рамблера – «StackRambler»
  • Бот поисковой машины Yahoo! – «Yahoo! Slurp»
  • Бот поисковой машины MSN – «msnbot»
  • Бот поисковой машины Google - «google bot»

Disallow - указывает какие директории на сайте не индексировать.

Sitemap - сюда нужно вписать ссылку на вашу карту сайта в XML, этот параметр показывает поисковому роботу где находится карта сайта и в дальнейшем посещении сайта запоминает путь и ускоряет индексацию сайта.

Вот приблизительно как эти атрибуты используются на письме (в примере сайта Skype.com)

User-agent: *
Disallow: /temp/
Disallow: /store/accessories/
Disallow: */downloading/
Disallow: /go/help.ticket.submit$
Sitemap: http://www.skype.com/sitemap.xml

Если вы хотите полностью запретить индексирование сайта, то вводим следующее:

User-agent:*
Disallow: /

Чтобы запретить индексировать один какой нибудь файл (proba.html), к примеру для поисковой системы Google то:

User-agent:google bot
Disallow: proba.html

Настройка humans txt

Как говорилось вначале файл humans txt используется для указания информации о разработчике сайта, поэтому мы будем указывать личные данные разработчика сайта. Для начала создания этого файла нужно добавить одну строку в главную страницу вашего сайта (index.html, index.php, template.php - по разному) между тегами <head> и </head>:

<code></code><link rel="author" href="/humans.txt" />

Далее требуется создать файл с именем "robots.txt" и следующем содержанием (шаблон заполнения предоставляется официальным сайтом):

/* TEAM */
Your title (роль в проекте): Ваше имя.
Site (Контакты): электронная почта, ссылка на форму обратной связи, т.д.
Twitter: твой ник на твитере (если имеется).
Location (Местоположение): Город, Страна.
 
[...]
 
/* THANKS */
Name (Имя): имя или адрес сайта
 
[...]
 
/* SITE */
Last update (Обновлено): YYYY/MM/DD
Standards (Стандарты): HTML5, CSS3,..
Components (Компоненты): Modernizr, jQuery, etc.
Software (Программное обеспечение): ПО использованное для разработки