Руководство для начинающих по вашему файлу WordPress robots.txt

Доброго здравия, друзья!

Очень рад вас приветствовать снова на моем блоге. И сегодня я бы хотел рассказать вам что такое robots.txt, для чего он нужен и как им пользоваться на своем сайте WordPress.

Руководство для начинающих по вашему файлу WordPress robots.txt

Файл robots.txt имеет очень важную роль в общем СЕО вашего сайта. Этот файл находится на вашем сервере и сообщает поисковым системам, какая часть сайта должна быть проиндексирована и просканирована поисковыми системами. По сути, он содержит набор правил для взаимодействия с поисковыми системами и указания, какая часть вашего сайта должна быть проиндексирована.

Хотя большинство веб-сайтов имеют файл robots.txt, не все веб-мастера знают, насколько важен этот файл и как он может повлиять на производительность своего веб-сайта.

В сегодняшнем посте я расскажу вам, что именно представляет собой файл robots.txt, и все, что вам нужно знать об этом файле.

Что такое файл WordPress robots.txt?

Каждый веб-сайт в интернете посещается определенным типом робота, который является своего рода ботом.

Если вы не знаете, что такое бот, поисковые системы, такие как Google, Яндекс и Bing, являются идеальным примером для вас, чтобы понять это.

Поэтому, когда эти боты ползают по интернету, они помогают поисковым системам индексировать и ранжировать миллиарды веб-сайтов, существующих в интернете.

Таким образом, эти боты на самом деле помогают вашему сайту быть обнаруженным поисковыми системами. Однако это не означает, что вы хотите, чтобы все ваши страницы были найдены.

Вы бы особенно хотели, чтобы ваша панель управления и область администратора оставались скрытыми, потому что это частная область, из которой вы управляете внешним интерфейсом вашего сайта. Иногда вы можете захотеть, чтобы весь сайт был скрыт от поисковых систем по той причине, что он все еще находится в режиме разработки и просто не готов к работе.

Что такое файл WordPress robots.txt

Команды robots.txt, изображение со страницы веб-роботов

Именно здесь появляется файл robots.txt. Этот файл помогает вам контролировать взаимодействие ботов с вашим сайтом. Таким образом, используя этот файл, вы можете либо ограничить, либо полностью заблокировать его доступ к определенной области вашего сайта.

Вашему сайту нужен этот файл?

Хотя поисковые системы не перестанут сканировать в отсутствие этого файла, рекомендую всегда иметь его.

Поисковые системы придут к этому файлу, если вы захотите отправить свои карты сайта XML в поисковые системы, такие как Google. Очевидно, что вы можете контролировать его, особенно указав его в Google Web Master Tools.

Создание файла robots.txt имеет два основных преимущества для вашего сайта. Во-первых, это помогает поисковым системам определить, какие страницы вы бы хотели чтобы они сканировались, а какие — игнорировались. Делая это, вы убедитесь, что поисковые системы сфокусированы на страницах, которые вы хотите, чтобы они показывали вашей аудитории.

Во-вторых, это помогает вам оптимизировать использование исследований, блокируя ботов, которые излишне тратят ресурсы вашего сервера.

Если ваш сайт работает на WordPress, вам обычно не нужно прилагать дополнительные усилия для создания файла robots.txt для вашего сайта. Виртуальный robots.txt автоматически создается на вашем сайте WordPress. Но все же лучше иметь физический файл robots.txt.

Является ли файл robots.txt надежным способом контроля того, какая страница должна быть проиндексирована?

Ну, как я уже упоминал, поисковые системы не прекратят сканировать ваши страницы при отсутствии этого файла. Создание этого файла не является надежным способом контроля того, какую страницу вы хотите индексировать поисковым системам.

Если вы хотите, чтобы поисковые системы не сканировали определенную страницу, вы можете использовать мета-тег «noindex», чтобы полностью ее заблокировать.

Используя файл robots.txt, вы не говорите поисковым системам не индексировать их. Это только побуждает их не сканировать эти страницы. Хотя Google не сканирует эти области вашего сайта, он может сделать это, если какой-либо другой сайт ссылается на эту часть вашего сайта.

Где находится файл robots.txt на вашем сайте WordPress?

Вы можете просмотреть этот файл, подключившись к своему сайту с помощью FTP-клиента. Вы также можете сделать это с помощью файлового менеджера в cPanel. Этот файл обычно находится в корневой папке вашего сайта.

Вы можете открыть этот файл с помощью любого текстового редактора, такого как «Блокнот». Это обычный файл, для открытия которого не требуется специальный редактор.

Вам не нужно беспокоиться о существовании этого файла на вашем сайте. WordPress автоматически создает файл robots.txt по умолчанию для вашего сайта.

Если вы все еще сомневаетесь в этом, есть способ показать, что этот файл существует на вашем сайте. Просто добавьте «/robots.txt» в конец вашего доменного имени. Он покажет вам файл robots.txt вашего сайта.

В моем случае «https://zacompom.ru/robots.txt» показывает файл robots.txt, который я здесь использую.

Где находится файл robots.txt

Вы не можете изменить существующий файл, который будет у вас на сайте. Но если вы хотите манипулировать им, вам придется создать физический на вашем сервере. Существующий является виртуальным, который не принимает никаких изменений.

Как создать файл robots.txt?

Если на вашем сайте нет файла robots.txt, создать его не очень сложно. Вы можете легко сделать это из вашей админ-панели через плагин Yoast. Yoast — один из самых удивительных плагинов СЕО, который должен использовать каждый сайт WordPress. Если вы по-прежнему не используете этот плагин, установите его сейчас, чтобы улучшить свой СЕО.

После установки Yoast вам сначала необходимо включить расширенные функции Yoast. Вы можете сделать это, зайдя в «SEO — Панель инструментов — Функции — Расширенные настройки».

Как создать файл robots.txt

Теперь перейдите в «SEO — Инструменты — Редактор файлов».

Редактор файлов

Здесь Yoast будет предполагать, что у вас нет физического файла robots.txt, и, учитывая это, он даст вам возможность его создать.

физического файла robots.txt

Нажмите на опцию создания файла robots.txt. Как только вы это сделаете, вы сможете редактировать содержимое этого файла из того же интерфейса.

создания файла robots.txt

Как создать файл robots.txt без плагина СЕО?

Вышеупомянутый процесс был способ создать этот файл с помощью плагина СЕО. Но вы можете создать его, даже если вы не используете такой плагин. Это можно сделать через SFTP. Сделать это очень легко.

Для этого вам сначала нужно будет создать пустой файл. Назовите его как robots.txt и сохраните.

Как создать файл robots.txt без плагина СЕО

На следующем шаге вам нужно будет подключиться к вашему сайту через SFTP. Как только вы подключитесь, вам нужно будет загрузить файл в корневую папку вашего сайта. Если вы хотите внести какие-либо изменения в этот файл, вы можете сделать это, отредактировав его через SFTP и загрузив новую версию.

Как использовать файл robots.txt, чтобы заблокировать доступ к определенной странице?

Вы можете заблокировать определенный файл или папку вашего сайта, используя файл robots.txt. Предположим, вы хотите запретить Google сканировать всю папку «wp-admin» и «wp-login.php». Следующая команда поможет вам сделать это на вашем сайте.

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-login.php

Что поместить в ваш файл robots.txt?

Когда вы создаете файл robots.txt для своего сайта, вы обычно делаете это с помощью двух основных команд.

  • User-agent — используя User-agent, вы можете указать на конкретного бота или поисковую систему более простыми словами. Таким образом, ваш User-agent (пользовательский агент) отличается для разных поисковых систем. Так что пользовательский агент для Google не будет таким же как и для Bing.
  • Disallow — этой командой вы сообщаете поисковым системам, что они не имеют доступа к определенным областям вашего сайта. Таким образом, поисковые системы не достигают областей, для которых используется эта команда.

Иногда вы также можете увидеть использование команды Allow. Это обычно используется в нишевых ситуациях. Даже если вы не используете эту команду, большая часть вашего сайта попадает под эту команду. Это установлено по умолчанию на вашем сайте WordPress.

Вышеуказанные правила являются только основными. Есть еще правила, о которых вам нужно знать. Вот несколько из них.

  • Allow — эта команда явно позволяет поисковым системам сканировать сущность на вашем сервере
  • Sitemap — эта команда сообщает искателям, где находятся карты сайта вашего сайта.
  • Host — хост определяет предпочитаемый вами домен для сайта с несколькими зеркалами.
  • Crawl-delay — с помощью этой команды вы можете установить временной интервал, по которому поисковые системы должны ждать между запросами к вашему серверу.

Как создать разные правила для разных ботов?

Файл robots.txt имеет собственный синтаксис для определения правил, которые обычно называются директивами. Как я уже упоминал ранее, разные боты имеют разные команды user-agent. Ну и что, а если вы хотите установить свой robots.txt файл для разных ботов?

Ну, в этом случае вам придется добавить набор правил в декларации user-agent для каждого бота.

В следующей команде я покажу вам, как создать одно правило для всех ботов, а другое — специально для Bing.

    User-agent: *
    Disallow: /wp-admin/

    User-agent: Bingbot
    Disallow: /

Добавив вышеупомянутую команду, вы сможете заблокировать доступ всех ботов к области «wp-admin» вашего сайта. Однако поисковой системе Bing будет закрыт доступ ко всему сайту.

Чего следует избегать при создании файла robots.txt

Есть некоторые вещи, которые вы должны избегать при создании файла robots.txt. Первая и самая важная ошибка, совершаемая многими неопытными владельцами веб-сайтов, заключается в предоставлении места в начале команды.

Второе, что вам нужно иметь в виду, это то, что вы не можете и не должны изменять правила команд. Третье, на что многие люди не обращают внимания, это правильное использование прописных и строчных букв при написании команды.

Убедитесь, что вы дважды проверили регистр ваших команд. Вы не можете написать user-Agent или user-agent, когда он должен быть на самом деле User-agent. Я надеюсь, что вы поняли разницу в трех терминах.

Добавление ваших файлов sitemap.xml в файл robots.txt

Если ваш сайт уже использует плагин СЕО, такой как Yoast, он автоматически добавит команды, относящиеся к XML-файлам вашего сайта, в файл robots.txt.

Но если ваш плагин не может добавить эти команды, вам придется сделать это вручную самостоятельно. Ваш плагин покажет вам ссылку на ваш sitemap.xml. Вам нужно будет добавить его в файл robots.txt самостоятельно.

Как узнать, что ваш файл robots.txt не влияет на ваш контент?

Иногда вы можете проверить, не затрагивается ли ваш контент файлом robots.txt. Чтобы проверить и убедиться, что на контент не влияют, вы можете использовать инструмент для веб-мастеров, который называется «Fetch As Bot Tool». Этот инструмент позволит вам увидеть, имеет ли ваш файл robots.txt доступ к вашему контенту.

Для этого сначала нужно войти в инструмент Google для веб-мастеров. Теперь перейдите в раздел «Диагностика» и «Посмотреть как Google Bot». Там вы можете разместить контент своего сайта и посмотреть, есть ли у вас проблемы с доступом к нему.

Заключительные слова

Как уже упоминалось, большинство сайтов WordPress по умолчанию имеют файл robots.txt. Но, используя физический файл robots.txt, вы можете контролировать взаимодействие конкретного бота или поисковой системы с определенной частью вашего сайта.

Важно, что вы знаете, что команда «Disallow» отличается от тега «noindex». Поисковые системы могут быть заблокированы с помощью robots.txt, но они не могут помешать им проиндексировать ваш сайт. Вы можете управлять взаимодействием поисковых систем с вашим сайтом, добавляя определенные правила.

Но хорошо, что вы знаете, какая часть вашего сайта должна быть просканирована, а какая часть должна быть запрещена. Потому что Google обычно смотрит на ваш сайт в целом. Поэтому, если вы используете эти файлы для блокировки важной части, о которой Google должен знать, вы можете просто столкнуться с некоторыми серьезными проблемами.

Например, если вы неосознанно используете файл robots.txt, чтобы заблокировать ваш стилевой компонент. В таком случае Google сочтет ваш сайт более низкого качества и может даже наказать вас.

В основном контент, который вы хотите поместить в файл robots.txt, зависит от вашего сайта. Это могут быть ваши партнерские ссылки, область панели инструментов или любая другая конкретная область, которая, по вашему мнению, не должна быть доступна ботам. Вы также можете сделать это для ваших плагинов и тем.

Я надеюсь, что это руководство было полезным для вас. Не стесняйтесь оставить мне комментарии ниже, если у вас есть какие-либо дополнительные вопросы.

До скорых встреч!


Обо мне
Юрич:
Занимаюсь созданием сайтов на WordPress более 6 лет. Работал в нескольких веб-студиях, да и сейчас работаю. Иногда подрабатываю на фрилансе, как на нашем так и на зарубежном. Везде зарекомендовал себя очень хорошо. Если нужен сайт на WordPress, шаблон для сайта или лендинг - не стесняйтесь - пишите. Рад буду помочь!
Заказать сайт