Файлът robots.txt

Към SEO оптимизацията на един уеб сайт може да се добави т.нар. файл robots.txt.

Файлът robots.txt е текстов файл, чието единствено предназначение е да укаже на роботите на търсещите машини кои директории/файлове могат да индексират и кои не. Файлът robots.txt може да съдържа списък на тези файлове и директории от сайта, които не трябва да бъдат индексирани от търсещите машини.

Чрез този файл може да се укаже един файл да бъде забранен за индексиране от дадена търсачка, но да бъде разрешен за индексиране от друга търсачка, която няма да бъде в списъка на robots.txt.

Файлът robots.txt се поставя в основната директория на сайта, т.е. адресът му трябва да бъде:

https://mysupersite.com/robots.txt

но не например https://mysupersite.com/folder1/robots.txt

Името на файла трябва да е с малки букви – robots.txt (не Robots.txt или ROBOTS.TXT).

Този файл се използва когато искате определено съдържание в хостинг акаунта да не бъде индексирано от претърсващите роботи.

Файлът robots.txt може да бъде създаден ръчно в директорията на сайта или динамично от системата на сайта. Например за WordPress се предлагат специализирани плъгини за създаване на sitemap и robots.txt. Когато този файл е създаден и се управлява от плъгин, е възможно той да не съществува реално в директорията на сайта, тоест не можете да го видите при останалите файлове, защото се генерира динамично от системата.

Важно: Трябва да се има предвид, че не всички роботи на търсещи машини се съобразяват с указанията, дадени в robots.txt.

Важно: Файлът robots.txt не може да служи за „скриване“ на чувствително съдържание в хостинг акаунта, до което не желаете да имат достъп странични хора, защото този файл е достъпен за всички и е известно, че може да се види на адрес mysupersite.com/robots.txt.

Създаване на robots.txt

Файла robots.txt можете да създадете директно в директорията на сайта през Файловия мениджър в cPanel или локално на вашето устройство и след това да го качите в хостинг акаунта.

За да създадете robots.txt файл, локално на вашия компютър, отворете някакъв текстов редактор, например Notepad, попълнете няколко реда и съхранете файла като robots.txt.

Няколко примера за robots.txt:

# Пример за разрешаване на всички търсещи машини
# да индексират цялото съдържание на сайта
User-Agent: *
Disallow:

# Пример за забрана на всички търсещи машини
# да индексират цялото съдържание на сайта
User-Agent: *
Disallow: /

Съдържание на robots.txt

Файлът robots.txt има определен формат на записите, който е нужно да се спазва. Отделните записи се разделят с празен ред.

Файлът съдържа два основни типа записи.

1. Запис, посочващ конкретен робот/и

Този запис има следния вид:

User-Agent: име на робот

Тук под „име на робот“ се има предвид името на претърсващата програма на съответната търсачка. Например името на робота на Гугъл е Googlebot. Следователно ако искате да забраните индексирането на определени папки или файлове от Гугъл, този ред трябва да е:

User-Agent: Googlebot

Чрез robots.txt може да се укаже не само кои папки и файлове да не бъдат индексирани, но и кои търсачки да не индексират определени файлове и директории. Т.е. възможно е да се забрани индексирането на даден файл от една търсачка (и да се разреши индексирането на същия файл от всички други търсачки. За целта е необходимо да се знаят названията на претърсващите програми на търсачките. Обикновено търсещите машини дават информация за роботите си на страницата на съответната търсачка и обикновено (но не винаги) имената на роботите включват в себе си името на търсачката – както е в случая с Googlebot.

Списък на роботите на търсещите машини може да видите на следния адрес: https://en.wikipedia.org/wiki/Web_crawler.

За параметър на User-Agent може да се зададе знака „звезда“ (User-Agent: *). В такъв случай записите, с указаните по-долу забранени за индексиране файлове и папки, ще важат за всички търсещи машини, за които няма изричен запис User-Agent: име на робот. Във файла robots.txt може да има само един запис-указание за имената на роботите във вида:

User-Agent: *

В такъв случай записите ще важат за всички роботи на всички търсещи машини.

Всеки робот трябва да бъде указан на отделен ред, макар че този стандарт беше разширен и сега е възможно
няколко робота да се укажат с един запис User-Agent, като имената им бъдат разделени с табулатор (бутон Tab).

2. Запис, описващ забрана за индексиране на определено съдържание

Вторият запис указва кои точно файлове или директории да не се индексират от съответния робот. Този запис има вида:

Disallow: точно указване на пътя до име на файл или папка, които са забранени за индексация

Например ако желаете търсещите машини да не индексират файла в основната директория script.php, директорията cgi-bin, файловете file1.html и file2.php, намиращи се в директория dir1 и цялото съдържание на папка dir2, намираща се в папка dir1, трябва да въведете в robots.txt следния запис:

Disallow: script.php
Disallow: /cgi-bin/
Disallow: /dir1/file1.html
Disallow: /dir1/file2.php
Disallow: /dir1/dir2/

Ако в директорията dir1 има 3-ти файл, например file3.html, той ще може да бъде индексиран, a file1.html file2.php няма да бъдат индексирани.

Ако в dir1 няма други файлове, които бихте искали да бъдат индексирани от търсещите машини, тогава може да забраните индексирането на file1.html и file2.php като използвате:

Disallow: /dir1/

При изписването на записите в robots.txt има няколко особености:

1. Може да изпишете само началните букви с наклонена черта отпред, например:

Disallow: /scr

В такъв случай няма да бъдат индексирани нито един един файл и папка, чието название започва с тези букви.

2. Ако запишете празна директива, само:

Disallow:

роботите ще индексират целия сайт, тъй като това указва позволение.

3. Ако запишете за параметър само наклонена черта:

Disallow: /

нито един файл и директория от сайта няма да бъдат индексирани.

Ако желаете да сложите някакъв пояснителен коментар, който да не се отрази на работата на файла robots.txt, може да направите това, като започнете реда с диез (#), например:

# Това е първи ред коментар
# и това е 2-ри ред коментар

Няколко правила, които трябва да бъдат спазени за съдържанието на файла robots.txt:

  • да не се оставя празен ред в един запис (празният ред се отчита като разделител на два записа);
  • всяко указване на папка или файл трябва да бъде на отделен ред;

Някои роботи, сред които и роботът на Гугъл – googlebot – могат да възприемат забрана за индексиране на файлове с определено разширение, например:

Disallow: *.php

ще забрани индексирането на всички файлове с разширение .php.

Вижте още:

🔗 Обхождащи роботи, блокиране на лоши ботове | Help

Обновена: 18.03.2022

Беше ли Ви полезна тази статия?

Вижте още