Как настроить и использовать файл robots.txt
, Просмотров 3059
Robots.txt — это текстовый файл с расширением txt, предназначенный для поисковых роботов Яндекса, Google и других поисковых систем, который содержит параметры и инструкции для индексирования вашего сайта.
Поисковые роботы поддерживают стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.
Пример стандартных инструкций для роботов в файле robots.txt и их пояснение:
1) Случай 1:
User-agent: * # означает, что условие для всех роботов Disallow: # сообщает, что все разделы сайта доступны для индексации
2) Случай 2:
User-agent: * # означает, что условие для всех роботов Disallow: / # сообщает, что сайт нельзя индексировать роботами
3) Случай 3:
User-agent: YandexBot # условие только для основного робота Яндекса Disallow: / # сообщает, что сайт нельзя индексировать роботу Яндекса
4) Случай 4:
User-agent: YandexBot # условие только для основного робота Яндекса Disallow: /blog/* # запрет на индексацию папки раздела блог и всех страниц, входящих в него
5) Случай 5:
User-agent: YandexBot # условие только для основного робота Яндекса Disallow: /blog$ # запрет на индексацию только папки раздела блог, страницы входящие в него индексируются
6) Случай 6 (расширенные правила):
User-agent: * # условие для всех роботов Allow: /blog/images # разрешить индексацию папки images, входящей в blog Disallow: /blog/ # запрет на индексацию папки blog и всех входящих страниц, кроме папки images Sitemap: https://site.ru/sitemap.xml # добавление карты сайта для обхода поисковыми роботами Host: site.ru # выбор главного зеркала для индексации Crawl-delay: 2 # пауза для поискового робота 2 секунды между загрузками файлов
Яндекс поддерживает следующие директивы:
Директива |
Что делает |
---|---|
User-agent * |
Правила действуют для всех роботов |
Disallow |
Запрещает индексирование разделов или отдельных страниц сайта. |
Sitemap |
Указывает путь к файлу Sitemap, который размещен на сайте. |
Clean-param |
Указывает роботу, что URL страницы содержит параметры, которые не нужно учитывать при индексировании. |
Allow |
Разрешает индексирование разделов или страниц сайта. |
Crawl-delay |
Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. |
Проверить правильно ли настроен ваш robots.txt вы можете в разделе Яндекс Вебмастера "Инструменты - Анализ Robots.txt". Как добавить сайт в Яндекс Вебмастер мы уже писали в предыдущей статье.
Нет времени обучаться ? сделаем это за вас
Статья была полезна ? Пожалуйста поделитесь ей с вашими друзьями.
И оставьте ваш комментарий. Спасибо. Автору будет очень приятно.
Комментарии (0)
Add a Comment