Инструменты / Генератор robots.txt

Генератор robots.txt

Визуальный конструктор файла robots.txt с поддержкой основных директив и нескольких User-agent.

Технический SEO // данные не отправляются на сервер
User-agent: * Disallow:

Что такое robots.txt

Файл robots.txt — это текстовый файл в корне сайта, который говорит поисковым роботам, какие страницы можно сканировать, а какие — нет. Это не блокировка индексации (для этого есть meta robots noindex), а именно инструкция для краулера: «сюда не ходи».

Правильно настроенный robots.txt помогает поисковикам эффективнее расходовать краулинговый бюджет — не тратить ресурсы на сканирование административных панелей, страниц фильтрации, корзин и других технических разделов.

Основные директивы

  • User-agent — для какого робота правила (символ * означает «для всех»)
  • Disallow — какие пути запрещены для сканирования
  • Allow — исключения из запретов (разрешить конкретный путь внутри запрещённого)
  • Sitemap — адрес XML-карты сайта
  • Crawl-delay — задержка между запросами робота (поддерживается Яндексом, игнорируется Google)

Типичные ошибки

  • Запрет индексации CSS и JS файлов — мешает рендерингу страниц
  • Пустой Disallow без значения разрешает всё, Disallow: / — запрещает весь сайт
  • robots.txt не запрещает индексацию, а только сканирование — страница всё равно может попасть в индекс

Частые вопросы

Обязателен ли robots.txt?

Нет, файл robots.txt не обязателен. Если его нет, поисковые роботы будут сканировать все доступные страницы сайта. Но для большинства сайтов рекомендуется его создать, чтобы управлять краулинговым бюджетом и не давать роботам ходить по техническим разделам.

Что такое Crawl-delay?

Crawl-delay — это директива, которая указывает роботу делать паузу (в секундах) между запросами к серверу. Яндекс поддерживает её и учитывает, Google — полностью игнорирует. Используйте, если ваш сервер не справляется с нагрузкой от поискового робота.

Можно ли заблокировать весь сайт от индексации?

Директива Disallow: / запретит роботам сканировать весь сайт, но не гарантирует удаление из индекса. Страницы могут попасть в индекс через внешние ссылки. Для полной блокировки используйте комбинацию robots.txt и мета-тег <meta name="robots" content="noindex">.

Где должен лежать файл robots.txt?

Файл robots.txt должен находиться строго в корне сайта и быть доступен по адресу https://ваш-сайт.ru/robots.txt. Файл в подпапке или с другим именем не будет обнаружен поисковыми роботами. Кодировка файла — UTF-8.