Проститутки Москвы и Питера
 
       
Сделать стартовой Добавить в избранное
 
Панель управления
логин :  
пароль :  
   
   
Регистрация
Напомнить пароль?
Портал о заработке в интернете » Раскрутка сайта » Управление индексацией сайта при помощи файла robots.txt
Навигация по сайту
Заработок в Google
Партнерские программы
Почтовики
Серфинг
Контекстная реклама
Продажа ссылок с сайта
Инвестиционные фонды
Электронные книги
Статьи о заработке
Раскрутка сайта
Форум
 
Расширенный поиск
РЕКЛАМА
Узнайте как сделать свой сайт самостоятельно
Календарь
«    Январь 2008    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 
Популярные статьи
» Интернет курс "Как начать зарабатывать в интернете с н ...
» Google шифрует трафик с помощью SSL
» Мультиблок. Как настроить показ на странице нескольких ...
» Для новичков
» XRumer 4.0 Platinum Edition
» Что означает статус "Остановлена" у недавно подключен ...
» Семь советов по созданию рекламного объявления
» Десять плохих привычек, которые не приводят к богатству ...
» Проведение эффективной рекламной кампании в Интернете.
» Новости чёрного списка спонсоров
Наш опрос
Оцените работу движка

Лучший из новостных
Неплохой движок
Устраивает ... но ...
Встречал и получше
Совсем не понравился
Новости партнеров
"Ведомости": МТС рассматривает возможность покупки "Евросети"
По данным Следственного комитета при прокуратуре России, еще в 2003 году они угрожали сотруднику "Евросети" экспедитору Андрею Власкину.

В Москве взрывное устройство прервало поминки
INTERFAX.RU - На утро пятницы семь пострадавших в результате взрыва в кафе на улице генерал Белова, произошедшего в четверг вечером, остаются в больницах города, сообщил "Интерфаксу" источник в ...

Россия разбирается в заявлениях Грузии об упрощении визового режима
Россия пытается разобраться, что Грузия имела в виду, говоря об упрощении визового режима для российских граждан, заявил глава МИД РФ Сергей Лавров.

Архив новостей
Август 2008 (38)
Июнь 2008 (6)
Май 2008 (45)
Апрель 2008 (4)
Март 2008 (584)
Февраль 2008 (99)
Январь 2008 (187)
Выбор шаблона
Информация
 
 

Раскрутка сайта : Управление индексацией сайта при помощи файла robots.txt
 
Автор: Статиевский Данила (http://dengi.filosofia.ru/)
Вступление

Поисковые роботы (или спайдеры, пауки, поисковые машины и т.д.) постоянно шарят по веб-страницам, обрабатывая, содержащуюся на них информацию. Веб-мастер может управлять поведением поисковиков на своём сайте двумя способами: при помощи мета-тегов, либо файла robots.txt. Рассмотрим подробнее второй способ.
Общие сведения

robots.txt - особый файл (точнее, это - обычный текстовый файл с расширением txt, но составленный особым образом), лежащий в корневой директории сайта (например, если сайт имеет адрес http://filosofia.ru/, то файл robots.txt должен находиться по адресу: http://filosofia.ru/robots.txt). Обратите внимание: имя файла и расширение надо писать в нижнем регистре! Любой поисковик, заходя на какой-либо сайт, прежде всего, проверит наличие и содержимое файла robots.txt (можете посмотреть логи своего сервера и убедиться как часто запрашивается этот файл). И, уже исходя из полученной информации, будет осуществлять свою дальнейшую деятельность на этом сайте. На одном сайте может быть только один файл robots.txt. Если робот не находит файл исключений для поисковых роботов, то он действует на сайте по своему собственному алгоритму (делает что хочет :-)).
Формат записи файла robots.txt

В файле robots.txt указывается: какому роботу и что НЕ надо индексировать на сервере. Вообще, записи в этом файле составлены из нескольких групп инструкций, а проще говоря - блоков (разделяемых пустой строкой), каждый из которых предназначен для одного или нескольких роботов. Название робота указывается в первой строке блока (параметр User-agent, его наличие в robots.txt обязательно):

User-agent: robot1 robot2 robot3, где:

robot1, robot2 и robot3 - названия поисковых роботов. Например:

User-agent: WebCrawler Lycos StackRambler

Как видите, названия поисковых роботов иногда отличаются от названий поисковых систем (в нашем примере: робота поисковой системы Rambler "зовут" StackRambler). В большинстве случаев, однако, писать названия роботов не требуется. Достаточно просто написать:

User-agent: *, здесь знак "*" означает, что запись относится ко всем роботам (в файле может быть только одна такая строка).

Далее идёт вторая строка:

Disallow: путь, где:

путь - часть URI, который запрещено посещать роботу. Можно указывать полностью или частично (любой URI, начинающийся с указанного значения роботу посещать запрещено). Для каждого объекта, запрещённого к индексации нужно писать отдельный Dissallow.

Обратите внимание: указываются не абсолютные, а относительные пути.

Например:

Disallow: /topsecret/ - запрещает доступ к директории с таким именем, но не запрещает файлы с таким именем, т.е. файл topsecret.html будет проиндексирован, а все файлы в директории /topsecret/ - нет.

Disallow: /privat - запрещает доступ как к директориям с таким именем, так и к файлам.

Disallow: /folder/file.htm - запрещает доступ к определённому файлу в определённой директории.

Из примера видно, что для каждого объекта, запрещённого к индексированию, записывается отдельная строка Disallow. Пустое значение параметра Disallow означает, что все URL могут загружаться. В файле robots.txt должен быть, по крайней мере, один параметр Disallow. Параметр Disallow всегда относится только к предшествующему параметру User-agent, поэтому для каждого параметра User-agent нужно задавать свои параметры Disallow.
Примеры записи файлов

Проще всего понять синтаксис файла robots.txt и научиться грамотно его использовать можно на конкретных примерах. Ниже приведены примеры нескольких типичных записей в этот файл.

Пример 1.

# robots.txt file for http://dengi.filosofia.ru/
# contact webmaster@filosofia.ru for critics

User-agent: StackRambler Googlebot
Disallow:

User-agent: *
Disallow: /tmp/
Disallow: /logs/

Значок # означает комментарий. Комментарии лучше писать на отдельной строке.

В этом примере всем роботам запрещается посещать директории tmp и logs, и только роботам StackRambler и Googlebot разрешено посещать всё.

Пример 2.

# I hate search engines!

User-agent: *
Disallow: /

В этом примере всем роботам запрещена любая деятельность на сайте.

Пример 3.

User-agent: *
Disallow: /private/letters/
# This is top secret directory.
Disallow: /cgi-bin/
Disallow: /anektods.html

В этом примере всем роботам запрещается посещать страницы, находящиеся в директориях /private/letters/ и /cgi-bin/, а так же файл anektods.html.

Пример 4.

User-agent: *
Disallow:

Это самый простой случай. Всем роботам можно обрабатывать любые документы на сервере.
Проблемы безопасности

Использование на своём сайте файла robots.txt хранит в себе потенциальную опасность. Вы можете пострадать от действий злоумышленников. Если кто-то наберёт в адресной строке броузера непосредственно адрес этого файла, ему станет известно, какие каталоги и файлы администратор пытается скрыть от посторонних глаз. Затем можно в строке броузера набирать прямой путь к этим "секретным объектам" и спокойно их лицезреть. Это называется "чёрный ход".

Как же защитить информацию от посторонних? Самое очевидное - не размещать её на общедоступных ресурсах. Если это действительно важная информация, зачем выкладывать её в глобальную Сеть? Если же информацию всё-таки надо выложить, используйте в заголовках документов мета-тег "robots". И установите надлежащую систему аутентификации.

Запрет на индексацию определенных страниц роботами полезен, когда нужно избавить поисковик от разной мусорной информации - дублирующегося контента на сайте, технических и бессодержательных страниц и прочего, что не представляет ценности для поискового робота. Так Вы снизите количество его работы на сайте и поспособствуете улучшению индексируемости полезной информации (которая потом приведет к Вам на сайт посетителей из поисковых систем).

Думаю, в этой статье описано всё, что нужно знать об управлении действиями поисковых роботов на сайте. Если же кто-то хочет более глубоко изучить этот вопрос, рекомендую посетить следующие ресурсы Интернет:

http://www.w3.org/TR/html401/ - спецификация HTML 4.01.

http://www.robotstxt.org/ - Этот сайт полностью посвящён поисковым роботам и взаимодействию с ними. Да это и из названия видно.
 
 
 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
 
 
  • Управление работой поисковых роботов
  • Полное руководство по применению мета тегов (meta tags)
  • Отличия поисковых систем от поисковых каталогов
  • Google выпускает Content Removal Tools
  • Как работает робот и как регистрироваться в поисковой машине Yandex
  •  
     
     (голосов: 0)
    Обсудить на форумеКомментарии (0)  Распечатать
     
     
    Добавление комментария