[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Страница 1 из 11
Форум о системе uCoz » Поисковая оптимизация » Другие поисковые системы » Правильный файл robots.txt для сайта uCoz
Правильный файл robots.txt для сайта uCoz
AvzalДата: Вторник, 18.03.2014, 19:33 | Сообщение # 1
Ucoz-Info.ru
Сообщений: 1143
Награды: 20
Репутация: 621
Статус:
В этой статье мы поговорим о очень важном файле robots.txt, без которого не может быть ни один сайт.

Для того чтобы качественно продвигать ваш сайт, не достаточно наполнить его качественным контентом, и провести внутреннюю и внешнюю оптимизацию. Нужно также бороться с дублями страниц, здесь мы обезвредим оставшиеся дубли страниц на вашем uCoz сайте с помощью файла robots.txt. Конечно же, ещё следует понимать, что не все содержимое вашего сайта должно индексироваться поисковиками. Не должны индексироваться профиля пользователей, страницы поиска и дубли страниц. Если в индекс попадёт все это, то оно очень отрицательно скажется на представлении вашего сайта в поисковых системах. С профилями юзеров и страницами из поиска у uCoz все хорошо настроено в файле robots.txt, но с дублями страниц нет, и мы это исправим в этой статье, провидя оптимизацию файла robots.txt. Данная статья будет состоять из двух частей, в первой мы поговорим об общей теории составления файла robots.txt, файл robots.txt для сайта, а во второй части рассмотрим особенности составления сего файла под uCoz и robots.txt от uCoz.


Для чего нужен файл robots.txt, как просмотреть его на другом сайте.

Файл robots.txt используется для того, чтобы задать правила поведения для поисковых роботов на вашем сайте. С помощью этого файла мы можем влиять на индексацию сайта поисковыми ботами. Сам по себе, файл robots.txt является обычным текстовым файлом, который можно создать в любом текстовом редакторе, например в стандартном «блокноте». Поисковик всегда ищет данный файл в корне вашего сайта, если он его не найдёт, то будет индексировать все, что есть на сайте, что, как мы говорили выше, не есть хорошо.
Все буквы в названии файла robots.txt должны быть в нижнем регистре, без заглавных и пробелов. После написания этого его нужно сохранять в корневую папку вашего сайта. Он должен быть доступен по адресу: http://vash-site.ru/robots.txt. На сайтах uCoz файл robots.txt по умолчанию настроен в корневую папку и имеет уже заданные директивы, для его редактирования, создайте свой файл названием robots.txt и залейте его в файловый менеджер, более подробно об этом будет написано в конце статьи . . .
Как просмотреть файл robots.txt на другом сайте? Для этого просто допишите к адресу главной страницы этого сайта /robots.txt и нажмите Enter. Вам откроется robots этого сайта, это всегда следует делать, если вы хотите определить лучший вариант для файла robots.txt, но если у вас сайт на uCoz, то вам целесообразно будет просматривать только файлы robots.txt uCoz сайтов.


Директивы и правила написания файла robots.txt для сайта.

Файл robots.txt имеет очень простой синтаксис и каждый человек сможет без проблем написать его. Составные части файла robots.txt будут подробно описаны далее в этой статье.
Чаще всего в файле robots.txt указывается, для какого именно бота написаны указанные ниже правила — директивы. Какие есть директивы в файле robots.txt? Вот они:Директива User-agent — для указания имени поискового роботаРазрешающая директива AllowЗапрещающая директива DisallowА также директива Sitemap — для указания поисковому роботу адреса карты сайтаТакже всегда полезно указать в правильном файле robots.txt директиву Host, чтобы обозначить поисковому роботу, какое из двух зеркал вашего сайта есть правильным, без www или с www.
Теперь немного про правила написания файла robots.txt.Все адреса, указываемые в файле robots.txt, должны начинаться с третьего слеша.В файле robots.txt, после каждой записи User-agent, должна иметься, хотя бы одна директива Disallow или Allow.Пустой файл robots.txt или его отсутствие означает поисковому роботу, что он может индексировать весь сайт.Точки в файле robots.txt не ставятся!


Указание названия поискового робота в директиве User-agent

Директива User-agent является обязательной и её должен содержать каждыйправильный файл robots.txt. С помощью данного правила можно указать конкретному поисковому роботу конкретно его задачи либо, указать их сразу для всех поисковых ботов. Вот пример директивы User-agent, адресуемой сразу всем поисковым ботам, которые зашли на сайт:

1 User-agent: *

Если же вы хотите указать в файле robots.txt конкретные правила только для одного робота поисковой системы, чтобы по ним ориентировался только он, то нужно написать:

1 User-agent: имя робота

А «имя робота» зависит уже от робота, которого вы выбираете, например: для робота Google это будет выглядеть так:

1 User-agent: Googlebot

У каждой поисковой системы есть робот, который имеет своё название (имя). Теперь, я приведу вам список наиболее часто встречаемых поисковых роботов:

1 Google http://www.google.com Googlebot
2 Яндекс http://www.ya.ru Yandex
3 Мэйл.ру http://mail.ru Mail.Ru
4 MSN http://www.msn.com MSNBot

Конечно же, есть намного больше поисковых ботов, но знать вам их имена не понадобится совсем, для них можно указать просто звёздочку в имени бота, пускай пользуются правилами для всех.


Примеры использования директив (User-agent, Allow, Disallow, Host, Sitemap) в файле robots.txt

Теперь приведу несколько примеров использования директив для файла robots.txt с подробными комментариями, чтобы вы могли самостоятельно составлять файл robots.txt для сайта. Вот примеры:
1. Приведённый ниже код для файла robots.txt разрешит всем поисковым робот индексировать все содержимое вашего web-сайта. Это может задаваться пустой директивой Disallow

1 User-agent: *
2 Disallow:

Также аналогичное действие может быть вызвано отсутствием файла robots.txt либо следующей конструкцией:

1 User-agent: *
2 Allow: /

2. А следующий код, наоборот, запретит всем поисковым ботам полностью индексировать сайт. Устанавливается это в директиве Disallow со слешем "/" в поле значения:

1 User-agent: *
2 Disallow: /

3. В приведённом ниже примере использования файла robots.txt для индексирования будут запрещены директория «book», а также все файлы, которые начинаются с символов «robots.txt», то есть такие файлы: «book.htm»,«books.htm», директории: «book», «books3», «books4» и т. д.:

1 User-agent: *
2 Disallow: /book

4. Это правило для файла robots.txt будет запрещать всем роботам поисковиков индексировать содержимое каталога /book/ (http://vash-site.ru/book/ - путь к этому каталогу на вашем сайте):

1 User-agent: *
2 Disallow: /book/

Но если вы допишите правило Allow: /book/pdf, то это будет означать поисковикам, что именно каталог http://vash-site.ru/book/pdf, можно индексировать, то есть индексировать только его из всего каталога http://vash-site.ru/book/. Здесь видно использование директивы Allow во всей красе.

5. Когда вы описываете пути для директив Allow и Disallow, то можно использовать символы '*' и '$'. Для чего? Символ '*' означает любую (в том числе и пустую) последовательность символов (знаков). Такой пример запретит всем поисковым ботам индексацию страницы сайта, которая имеет у себя в записи адреса слово "web":

1 User-agent: *
2 Disallow: *web

Ну и, конечно же, для избегания различной склейки адреса сайта с www и без него, следует дописать в файл robots.txt директиву Host с адресом вашего сайта с www или без него.

Директива Sitemap укажет адрес вашей карты сайта в формате .xml


Настройка правильного файла robots.txt для uCoz

Правильная настройка файла robots.txt для uCoz сайта, очень важна! Попробуем составить оптимальный файл robots.txt для uCoz. Вот как выглядит системный, стандартный файл robots созданный для нас системой uCoz:

Код
User-agent: *      
Disallow: /a/      
Disallow: /stat/      
Disallow: /index/1      
Disallow: /index/2      
Disallow: /index/3      
Disallow: /index/5      
Disallow: /index/7      
Disallow: /index/8      
Disallow: /index/9      
Disallow: /panel/      
Disallow: /admin/      
Disallow: /secure/      
Disallow: /informer/      
Disallow: /mchat      
Disallow: /search      
Disallow: /shop/order/      
Disallow: /?ssid=      

Sitemap: http://site.ucoz.ru/sitemap.xml      
Sitemap: http://site.ucoz.ru/sitemap-forum.xml      
Sitemap: http://site.ucoz.ru/sitemap-shop.xml

Здесь много неточностей, но для начала разберемся как изменить robots.txt uCoz. Для этого вам нужно создать тестовый файл на своём компьютере с названием robots.txt и залить его в корень вашего файлового менеджера сайта. После этого вы можете вносить в него правки прямо в админ панели.

На самом деле, стандартный файл настроен не так уж и плохо, но всё-таки там есть много неточностей.
Ну что же, чтобы закрыть дубли данного типа на uCoz сайтах, а также ssId дубли добавляем в наш robots.txt такие строчки:



Код
Disallow: /*&*       
Disallow: /*?*

Отлично, вы знаете их значение, если читали первую часть статьи. Теперь добавляем директиву Host, которой в стандартном файле robots.txt нет, вида: Host: vash-site.ru . Теперь насчёт ещё нескольких лишних страниц. От индексации обязательно следует закрыть страницы типа: «контакты», «гостевая книга», «о нас» и т.д. Как сделать это вы знаете из первой части статьи. Вот мой файл robots.txt:


Код
User-agent: *         
Disallow: /a/         
Disallow: /stat/         
Disallow: /index/1         
Disallow: /index/2         
Disallow: /index/3         
Disallow: /index/5         
Disallow: /index/7         
Disallow: /index/8         
Disallow: /index/9         
Disallow: /panel/         
Disallow: /admin/         
Disallow: /secure/         
Disallow: /informer/         
Disallow: /mchat         
Disallow: /search         
Disallow: /shop/order/         
Disallow: /?ssid=         
Disallow: /gb         
Disallow: /*&*         
Disallow: /*?*         
Disallow: /index/feedback/0-3         
Disallow: /refresh/         
Disallow: /css/         
Disallow: /load/0-2         
Disallow: /load/0-3         
Disallow: /load/0-4         
Disallow: /load/0-5         
Disallow: /load/0-6         
Disallow: /load/0-7         
Disallow: /load/0-8         
Disallow: /load/0-9         
Disallow: /load/0-10         
Disallow: /load/0-11         
Disallow: /load/0-12         
Disallow: /load/0-13         
Disallow: /load/0-14         
Disallow: /load/0-15         
Disallow: /load/0-16         
Disallow: /load/0-17         
Disallow: /load/0-18         
Disallow: /load/0-19         
Disallow: /load/0-20         
Host: ВАШ САЙТ         

Sitemap: http://ВАШ САЙТ/sitemap.xml

Должен также заметить, что на uCoz первые 30 дней robots.txt сайта имеет такой вид:
1 User-agent: *
2 Disallow: /
то есть, первые 30 дней индексация сайта полностью запрещенная, изменить вы это не сможете. uCoz делает это в целях борьбы с ГС, да и наполнить нормальный сайт контентом быстрее чем через 30 дней не получится. На этом можно считать оптимизацию файла robots.txt для сайта uCoz законченной. Спасибо за внимание!


Сообщение отредактировал Avzal - Вторник, 18.03.2014, 22:41
 
Форум о системе uCoz » Поисковая оптимизация » Другие поисковые системы » Правильный файл robots.txt для сайта uCoz
Страница 1 из 11
Поиск:

Статистика Форума
Последние обновленные темы Самые популярные темы Самые активные Новые участники
Общение (2618)
считаем до 3000 (2574)
дарова бандиты! (1)
Бесплатный XEvil Demo распознаёт 99% типов капч (0)
Помогите пожалуйста (4)
Интересный вопрос. (6)
Чем отличается Dle от Ucoz? (8)
Google Chrome 14.0.797.0 dev-m [Русская Версия] (9)
Microsoft Windows Developer Preview 6.2.8102 x64 RUS Full (1)
Microsoft Windows Developer Preview 6.2.8102 x64 RUS Full (1)
Общение (2618)
считаем до 3000 (2574)
Предложения по сайту (141)
Конкурс: Угадай фильм по скриншоту! (103)
Обмен баннерами (66)
Какой у вас мобильный телефон? (62)
Обновление дизайна! (60)
Игра: Обломай предыдущего (57)
Асоциации (53)
Ошибки на сайте (52)
Kavkazec05 (1893)
Hack^eR (1622)
Avzal (1143)
Vangan (945)
PalseR (883)
stels (864)
777Slash777 (570)
sergius (527)
Aeon (524)
Miller (515)
seo-progoni(14.11.2017)
sborzabor(28.09.2017)
mobiua(21.09.2017)
Юля(18.09.2017)
Hacuro(07.09.2017)
Rahiid(06.09.2017)
GenaMarina(26.08.2017)
SAffronn(11.08.2017)
Xim23(15.07.2017)
PERAVON(14.07.2017)