Вебмастера используют robots.txt, чтобы дать инструкции поисковым
роботам о своем ресурсе. Этот файл располагается в корневой директории
сайта.
Допустим, робот хочет посетить вашу ссылку
http://www.example.com/page1.php. Прежде чем он сделает это, он зайдёт
http://www.example.com/robots.txt и найдёт:
User-agent: *
Disallow: /
"User-agent: *” означает, что эта секция относится ко всем роботам.
"Disallow: /” говорит роботу, что он не должен посетить страницы на
заданном участке.
Следует помнить, что:
1.Роботы могут проигнорировать robots.txt. Особенно вредоносные роботы,
которые ищут на вашем сайте уязвимости или собирают e-mail для спама.
2.robots.txt - публично доступный файл. Любой может видеть, какие секции вашего сайта вы не хотите, чтобы роботы использовали.
Так что не стоит пытаться использовать robots.txt, чтобы скрыть информацию.
robots.txt - текстовый файл с одной или более записью. Обычно содержит запись такого плана:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере исключены три каталога. Необходимо добавлять
"Disallow” для каждого префикса URL, который нужно исключить. Кроме
того, следует запомнить, что для каждого каталога пишется отдельная
строка. Следует отметить, что для разделения друг от друга инструкций
применяется перенос строк, поэтому разбивать инструкцию "Disallow” или
"User-agent” на несколько строк запрещается.
Не поддерживаются также регулярные выражения и символы подстановки,
например «Disallow: *.gif» или «User-agent: *bot*” не будут работать.
Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации.
|