Как настроить и использовать файл robots.txt

автор
Фитеров Денис
дек 25, 2019

Теги: индексирование сайта , Просмотров 3229

Robots.txt — это текстовый файл с расширением txt, предназначенный для поисковых роботов Яндекса, Google и других поисковых систем, который содержит параметры и инструкции для индексирования вашего сайта.

Поисковые роботы поддерживают стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.

Пример стандартных инструкций для роботов в файле robots.txt и их пояснение:

1) Случай 1:

User-agent: * # означает, что условие для всех роботов
Disallow:     # сообщает, что все разделы сайта доступны для индексации

2) Случай 2:

User-agent: * # означает, что условие для всех роботов
Disallow:  /  # сообщает, что сайт нельзя индексировать роботами

3) Случай 3:

User-agent: YandexBot # условие только для основного робота Яндекса
Disallow:  /          # сообщает, что сайт нельзя индексировать роботу Яндекса

4) Случай 4:

User-agent: YandexBot # условие только для основного робота Яндекса
Disallow:  /blog/*  # запрет на индексацию папки раздела блог и всех страниц, входящих в него

5) Случай 5:

User-agent: YandexBot # условие только для основного робота Яндекса
Disallow:  /blog$   # запрет на индексацию только папки раздела блог, страницы входящие в него индексируются

6) Случай 6 (расширенные правила):

User-agent: * # условие для всех роботов
Allow: /blog/images # разрешить индексацию папки images, входящей в blog
Disallow:  /blog/ # запрет на индексацию папки blog и всех входящих страниц, кроме папки images
Sitemap: https://site.ru/sitemap.xml # добавление карты сайта для обхода поисковыми роботами
Host: site.ru # выбор главного зеркала для индексации
Crawl-delay: 2 # пауза для поискового робота 2 секунды между загрузками файлов

Яндекс поддерживает следующие директивы:

Директива	Что делает
User-agent *	Правила действуют для всех роботов
Disallow	Запрещает индексирование разделов или отдельных страниц сайта.
Sitemap	Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param	Указывает роботу, что URL страницы содержит параметры, которые не нужно учитывать при индексировании.
Allow	Разрешает индексирование разделов или страниц сайта.
Crawl-delay	Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Проверить правильно ли настроен ваш robots.txt вы можете в разделе Яндекс Вебмастера "Инструменты - Анализ Robots.txt". Как добавить сайт в Яндекс Вебмастер мы уже писали в предыдущей статье.

Нет времени обучаться ? сделаем это за вас

Настройка файла robots.txt

Статья была полезна ? Пожалуйста поделитесь ей с вашими друзьями.

И оставьте ваш комментарий. Спасибо. Автору будет очень приятно.

Комментарии (0)

Add a Comment

Поиск

Архив

Декабрь 2019 (5)

О нас

Компания Batobiz объединила в себе лучшие качества веб-студии и seo-агентства и готова предложить вам самые передовые решения в области создания и продвижения сайтов.

О нас