Немного о robots.txt.

Общеизвестен тот факт, что сегодня для привлечения сколько-нибудь значительной аудитории недостаточно создания красивого и содержательного сайта. Конечно, семь-восемь лет назад все обстояло совсем иначе. В то время число полезных и интересных русскоязычных веб-проектов было невелико, а поэтому аудитория с радостью приветствовала хорошие новинки. С тех пор все изменилось. В современном Рунете невозможно создать посещаемый проект, если не привлекать к нему внимание людей с помощью всевозможных маркетинговых способов - от обычных баннерообменных сетей до рекламы в оффлайновых СМИ. Однако надо признаться, что все эти способы относительно дороги. Причина этого очень проста. Любая реклама охватывает слишком широкую аудиторию, включающую в себя и людей, не заинтересованных в данном веб-проекте. К счастью, есть один совершенно бесплатный способ привлечь на сайт пусть и небольшую, но зато заинтересованную и очень активную аудиторию. Речь идет, конечно же, о поисковых системах.

И действительно, именно в поисковых системах люди ищут нужные им сайты. И именно оттуда на веб-страницы попадает лучшая, целевая аудитория. Именно поэтому к индексированию сайта в поисковых системах нужно относиться с предельной серьезностью. Вообще-то, когда об этом заходит речь, то все сразу вспоминают о правильном подборе ключевых слов, о различных секретах, помогающих "поднять" сайт на верхние строчки результатов поиска по определенным фразам, и прочих подобных вещах. В принципе, все это верно. Размещение веб-проекта в поисковой системе - действительно настоящее искусство. Однако нельзя забывать и о технической стороне этого процесса. И вот здесь не обойтись без специального файла - robots.txt. Именно о нем мы сегодня и будем говорить.

Robots.txt - это текстовый файл, единственное предназначение которого заключается в указании "паукам" поисковых систем, какие файлы и папки можно индексировать, а какие нет. На первый взгляд, это кажется не очень важным. Однако такая точка зрения ошибочна в корне. Многие файлы, особенно некоторые скрипты или форумы, лучше оставлять без индексирования. Почему? Все очень просто. Поисковая система "запоминает" точный адрес индексируемой страницы и информацию, которая на ней содержится. Однако что делать, если адреса быстро меняются? Давайте возьмем для примера форум. Определенные сообщения, которые "паук" проиндексировал на первой странице, завтра могут оказаться на второй, а через месяц - вообще где-нибудь в архиве. Таким образом, пользователь, получив от поисковой системы конкретный адрес, не найдет по нему интересующих его данных. Ну, а во многих случаях он вообще попадет на страницу с ошибкой или заглавную страницу сайта. Именно поэтому пренебрегать созданием файла robots.txt перед индексированием веб-проекта не стоит.

Итак, мы уже выяснили, что robots.txt - текстовый файл. Однако нужно учитывать, что он имеет собственный формат. Кроме того, есть еще пара нюансов, которые просто необходимо знать каждому веб-мастеру. Оказывается, robots.txt должен быть обязательно записан в кодировке Unix и размещен в корневом каталоге сайта. А теперь давайте подробно остановимся на формате этого файла.

Весь файл состоит из записей, каждая из которых, в свою очередь, состоит из двух полей. Первая всегда представляет собой одну строку следующего формата: User-agent: <значение>. Фактически, эта часть является своеобразным обращением, указывающим, для каких именно поисковых система записаны следующие команды. Так, например, для "паука" Google это будет выглядеть так: User-agent: googlebot. Таким образом, у веб-мастера есть возможность разрешить индексировать определенные папки или файлы одним поисковым системам и запретить это делать другим. Если же вам такая возможность не нужна, то можно использовать специальный символ подстановки "звездочка", который указывает, что следующий за ним блок команд предназначен для всех "пауков" без исключения.

Наверняка у многих читателей уже возник вопрос - как же узнать названия "пауков" тех или иных поисковых систем. Вообще-то, сделать это достаточно просто. На сайтах многих крупных поисковых систем существуют специальные разделы помощи веб-мастерам. Там вы наверняка найдете нужное вам имя. В противном случае придется воспользоваться логами веб-сервера. Для этого достаточно выбрать из них все обращения к файлу robots.txt, из которых можно выбрать подходящее имя. Учтите, что в названии "паука" обычно присутствует название поисковой системы или хотя бы его часть.

Второе поле каждой записи файла robots.txt состоит из одной или более строчек следующего формата: Disallow: <значение>. Под параметром "значение" здесь скрывается файл или папка, которые запрещено индексировать данному "пауку". То есть в самом простом случае robots.txt примерно выглядит так:

User-agent: * Disallow: forum.php Disallow: /cgi-bin/

Данный пример не позволяет ни одному "пауку" индексировать файл forum.php и содержимое папки cgi-bin. Однако стоит учитывать, что веб-мастеру совсем не обязательно указывать запрещенные объекты конкретно, поскольку во многих случаях перечисление заняло бы много места и времени. На самом деле, для решения этой проблемы стандарт позволяет использовать только начальные символы файлов или папок. Так, например, строка Disallow: /for запретит индексирование всех файлов и папок, имя которых начинается на for (например, файла forum.php и папки forum со всем ее содержимым). Кроме того, стандартом предусмотрено две "общих" команды. Так, запись просто Disallow: разрешает индексирование всего сайта без исключений, а Disallow: / полностью запрещает индексирование любого объекта.

В файлы robots.txt можно вставлять комментарии. Они должны начинаться с символа #. Вообще-то, согласно стандарту, комментарии можно делать в любом месте файла, в том числе, и в значащих строках. Однако многие современные "пауки" "не понимают" этого. Поэтому лучше всего комментарии, если они нужны, оформлять в отельной строке. Таким образом вы можете избежать некоторых досадных недоразумений.

Кроме того, при создании файла robots.txt нужно быть предельно внимательным. Дело в том, что часто веб-мастера допускают мелкие, но досадные ошибки в синтаксисе, приводящие к игнорированию команд "пауками". Так, например, нужно обязательно учитывать, что пустая строка в файле robots.txt является значащей - она представляет собой разделитель двух записей. Кроме того, не стоит забывать, что нельзя указывать несколько команд в одной строчке. Каждая из них должна располагаться отдельно и предваряться выражением Disallow:.

Вот, собственно, и все "премудрости" файла robots.txt. Видите - все очень просто. По крайней мере, если следовать стандарту. На самом же деле, многие "пауки" имеют дополнительные параметры. Так, например, googlebot (поисковая система Google) позволяет запрещать индексирование всех файлов с определенным расширением одной командой (например, так: Disallow: *.php). Ну, а "паук" "Яндекса" умеет обрабатывать специальную директиву Host для указания основного зеркала сайта, а также некоторые выражения SSI. Поэтому, если вы решите заняться файлом robots.txt серьезно, перед этим лучше всего внимательно изучить особенности и возможности разных "пауков" для достижения наилучшего результата.

Автор: Марат Давлетханов www.hostinfo.ru