Популярно, доступно, полезно

Файл Robots.txt


Что такое файл Robots.txt?

Файл robots.txt представляет собой простой текстовый файл, размещенный на вашем веб-сервере, который сообщает поисковым модулям, например, таким как Googlebot,  должен ли он получить доступ к файлу или нет.

Robots.txt примеры

Приведем некоторые примеры установок robots.txt (они будут объяснены и описаны ниже).

Разрешить полный доступ

User-agent: *
Disallow:

Блокировать доступ

User-agent: *
Disallow: /

Блокировать одну директорию

User-agent: *
Disallow: /folder/

Блокировать один файл

User-agent: *
Disallow: /file.html

 Зачем вам знать о файле robots.txt?

  • Неправильное использование файла robots.txt может повредить вашему ранжированию.
  • Файл robots.txt контролирует, как роботы поисковых систем видят и взаимодействуют с вашими веб-страницами.
  • Этот файл упоминается в рекомендациях Google.
  • Этот файл и роботы поисковых систем являются фундаментальными аспектами работы поисковых систем

Роботы поисковых систем

Поисковый робот, подобный Googlebot,  когда  посещает страницу, в первую очередь смотрит файл robots.txt.

Файл robots.txt и googlebot
Он делает это, потому что хочет знать, имеет ли он разрешение на доступ к этой странице или файлу. Если файл robots.txt говорит, что он может войти на страницу, то робот поисковой системы переходит к файлам страниц.

Если у вас есть инструкции для робота поисковой системы, вы должны сообщить ему эти инструкции. И делаете это с помощью файла robots.txt.

Приоритеты для вашего сайта

Есть три важных момента, которые любой веб-мастер должен делать, когда дело доходит до файла robots.txt.

  • Определите, есть ли у вас файл robots.txt
  • Если он у вас есть, убедитесь, что это не наносит ущерба вашему ранжированию или блокированию контента, который вы не хотите заблокировать
  • Определите, нужен ли вам файл robots.txt

Определение, есть ли у вас файл robots.txt

Вы можете проверить его в любом браузере. Файл robots.txt всегда находится в одном месте на любом веб-сайте, поэтому легко определить, есть лион на сайте. Просто добавьте «/robots.txt» в конец имени домена, как показано ниже.

www.yourwebsite.com/robots.txt

Если у вас есть файл, это ваш файл robots.txt. Вы либо найдете файл со словами или без слов, либо не найдете файл вообще.

Нужен ли вам файл robots.txt?

Возможно, вам даже не нужен файл robots.txt на вашем сайте. На самом деле это часто бывает так.

Причины, по которым вам может понадобиться файл robots.txt:

    • У вас есть контент, который вы хотите заблокировать для поисковых систем
    • Вы используете платные ссылки или рекламные объявления, для которых требуются специальные инструкции для роботов
    • Вы хотите точно настроить доступ к вашему сайту от авторитетных роботов
    • Вы разрабатываете сайт, который является доступным в сети, но вы не хотите, чтобы поисковые системы его индексировали
    • Он помогает вам следовать некоторым рекомендациям поисковых систем в некоторых определенных ситуациях
    • Вам нужно некоторое или все вышеперечисленное, но у вас нет полного доступа к вашему веб-серверу и вы не знаете, как он настроен
    • Каждая из вышеперечисленных ситуаций может быть решена и другими способами, однако файл robots.txt является централизованным местом для управления, и большинство веб-мастеров имеют возможность и доступ, необходимые для создания и использования файла robots.txt.

Причины, по которым вы, возможно, не захотите иметь файл robots.txt:

  • Это просто и без ошибок
  • У вас нет файлов, которые вы хотите или их нужно заблокировать из поисковых систем.
  • Вы не попадаете в ситуации, перечисленные выше, чтобы иметь файл robots.txt

Это нормально, если у вас нет файла robots.txt.
Если у вас нет файла robots.txt, поисковые роботы, такие как Googlebot, будут иметь полный доступ к вашему сайту. Это обычный и простой метод, который очень распространен.

Как сделать файл robots.txt

Файл представляет собой обычный текстовый файл, что означает, что вы можете использовать блокнот или любой другой текстовый редактор для его создания. Вы также можете сделать его в редакторе кода. Вы можете даже «скопировать и вставить» строки файла.

Вместо того, чтобы думать «я делаю файл robots.txt», просто думайте: «Я пишу заметку», это почти такой же процесс.

При использовании конкретной CMS вы можете найти в интернете множество готовых примеров файла robots.txt, однако без четкого понимания его принципов работы вы можете навредить рейтингу своего сайта. Так что прежде, чем просто копировать готовый пример для вашей CMS, разберемся на простых примерах ниже.

Что должно быть в файле robots.txt?

Это зависит от того, что вы хотите.

allow disallow

Все инструкции robots.txt приводят к одному из следующих трех результатов:

  • Полный доступ: весь контент может сканироваться.
  • Полный запрет: контент не может сканироваться.
  • Условное разрешение: директивы в файле robots.txt определяют возможность сканирования определенного контента.

Давайте объясним каждый.

Полное разрешение — все содержимое может сканироваться

Большинство людей хотят, чтобы роботы посещали весь контент на своем сайте. Если это то, чего хотите вы, чтобы робот индексировал все части вашего сайта, есть три варианта, позволяющие роботам знать об этом.

1) Нет файла robots.txt

Если на вашем сайте нет файла robots.txt, то происходит следующее:

Робот, подобный роботу Google, приходит в гости. Он ищет файл robots.txt. Он не находит его, потому что его нет. Затем робот может свободно посещать все ваши веб-страницы и контент, потому что это то, на что он запрограммирован в этой ситуации.

2) Сделайте пустой файл и назовите его robots.txt

Если на вашем веб-сайте есть файл robots.txt, в котором ничего нет, то происходит следующее:

Робот, подобный роботу Google, приходит в гости. Он ищет файл robots.txt. Он находит файл и читает его. Читать нечего, поэтому робот теперь может свободно посещать все ваши веб-страницы и контент, потому что это то, на что он запрограммирован в этой ситуации.

3) Создайте файл robots.txt и напишите следующие две строки в нем:

User-agent: *
Disallow:

Если на вашем сайте есть файл robots.txt с этими инструкциями, то происходит:

Робот, подобный роботу Google, приходит в гости. Он ищет файл robots.txt. Он находит файл и читает его. Он читает первую строку. Затем он читает вторую строчку. Затем робот может свободно посещать все ваши веб-страницы и контент, потому что это то, что вы ему сказали (я объясняю это ниже).

Полное запрещение — контент не может сканироваться

Предупреждение. Это означает, что Google и другие поисковые системы не будут индексировать или отображать ваши веб-страницы.

Чтобы заблокировать ваш сайт от всех поисковых роботов, у вас будут такие инструкции в файле robots.txt:

User-agent: *
Disallow: /

Это не рекомендуется делать, так как это не приведет к индексированию ни одной из ваших веб-страниц.

Инструкции robot.txt и их значения

Вот объяснение того, что означают разные слова в файле robots.txt

User-agent 
В разделе «User-agent» указывается конкретный робот, если это необходимо. Есть два способа использовать это в вашем файле.

Если вы хотите сказать всем роботам то же самое, то вы пишите «*» после «User-agent», это будет выглядеть так :

User-agent: *

В приведенной выше строке говорится, что «эти указания применимы ко всем роботам».

Если вы хотите что-то сказать определенному роботу (в этом примере Googlebot), это будет выглядеть так:

User-agent: Googlebot

В приведенной выше строке говорится, что «эти указания относятся только к роботу Google».

Disallow:
Часть «Disallow» должна сообщить роботам, в какие папки они не должны смотреть. Это означает, что если вы, например, не хотите, чтобы поисковые системы индексировали фотографии на вашем сайте, вы можете поместить эти фотографии в одну папку и исключить ее.

Допустим, вы поместили все эти фотографии в папку под названием «photos». Теперь вы хотите сообщить поисковым системам, чтобы они не индексировали эту папку.

Вот как выглядит ваш файл robots.txt в этом сценарии:

User-agent: *
Disallow: /photos

Вышеупомянутые две строки текста в файле robots.txt не позволят роботам посещать папку с фотографиями. В разделе «User-agent *» говорится, что «это относится ко всем роботам». В разделе «Disallow: /photos» говорится: «Не посещайте и не индексируйте эту папку».

Allow:

Инструкция «Allow:» позволяет сообщить роботу, что в папке, которая была «Disallow: » другими инструкциями, нормально видеть файл. Чтобы проиллюстрировать это, давайте используем приведенный выше пример. Итак, мы помещаем все фотографии в одну папку под названием «photos», и мы создали файл robots.txt, который выглядит следующим образом:

User-agent: *
Disallow: /photos

Теперь предположим, что в этой папке есть фотография под названием mycar.jpg, которую вы хотите индексировать. С инструкцией Allow: мы можем сказать, что Googlebot может   это сделать, и это будет выглядеть так:

User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg

Это скажет Googlebot, что он может посетить «mycar.jpg» в папке с фотографиями, даже если папка «photos» в данном случае исключена.

Заключение

Если вы используете файл robots.txt, убедитесь, что он используется правильно.
Неправильный файл robots.txt может блокировать поисковые роботы от индексации вашей страницы, сайта.
Убедитесь, что вы не блокируете страницы, которые роботы должны индексировать.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *