ажений секретности или из желания не
индексировать
одинаковые документы в разных кодировках. Чем меньше ваш сайт, тем быстрее
робот его обойдет. Поэтому запретите в файле robots.txt индексацию всех
документов,
которые не имеет смысла индексировать (например файлы статистики или списки
файлов в папках). Не нужно также индексировать скрипты CGI или IS API.
Детальное описание спецификации файла можно прочитать в документе «Стандарт
исключений
для роботов» на странице www.citforum.ru/internet/search/rbtspec.shtml.
В простейшем виде (разрешено все, кроме папки скриптов) файл robots.txt
выглядит следующим
образом:
User-Agent: *
Disallow: /cgi-bin/
Строка с полем user-Agent является обязательной и должна предшествовать строкам
с
полем Disallow.
Пустые строки в файле robots.txt являются значимыми, они разделяют записи,
относящиеся
к разным роботам. Например, в следующем фрагменте файла robots.txt строка
Disallow: /forum игнорируется, поскольку перед ней нет строки с полем
User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum .
Строка с полем Disallow может запретить индексирование документов только с
одним
префиксом. Для запрета нескольких префиксов нужно написать несколько строк.
Например, чтобы запретить индексирование документов, начинающихся с /cgi-bin и
/forum, необходимо написать.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum
А следующий фрагмент будет неверным
User-Agent: *
Disallow: /cgi-bin /forum
В строках с полем Disallow записываются не абсолютные, а относительные префиксы.
То есть файл:
User-Agent: *
Disallow: www.myhost.ru/cgi-bin
запрещает, например, индексирование документа
http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi,
но не запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.
cgi.
Создание Web-сайтов
В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще.
Так,
файл:
User-Agent: *
Disallow: *
запрещает индексирование документов, начинающихся с символа «*» (которых в
природе
не существует), а файл:
User-Agent: *
Disallow: /
запрещает индексирование всего сайта.
Если вы не можете создать/изменить файл robots.txt, то достаточно добавить
дополнительный
тег <МЕТА> в HTML-код вашей страницы (внутри тега ):
<МЕТА NAME="ROBOTS" CONTENT="NOINDEX">
Тогда данный документ также не будет проиндексирован.
Вы также можете использовать тег
<МЕТА NAME="ROBOTS" CONTENT="NOFOLLOW">
Он означает, что робот поисковой машины не должен идти по ссылкам с данной
страницы.
Для одновременного запрета индексирования страницы и обхода ссылок с нее
используется тег
<МЕТА NAME="ROBOTS" CONTENT»"NOINDEX,NOPOLLOW">
Чтобы запретить индексирование определенных фрагментов текста в документе,
пометьте
их тегами
Теперь, когда все заголовки соответствуют содержимому страниц, на каждой
странице
размещены описание