Какво е robots.txt?

Помощен център

Какво е robots.txt?

Когато имате уеб сайт и искате да дадете инструкции на уеб роботите (ботове/паяци) колко често да обхождат сайта ви, както и кои части от него да обхождат, е необходимо да заложите файл robots.txt в главната директория на Вашия сайт.

Как работи robots.txt?

Например, ако Вашият сайт се зарежда с домейна primerensait.com, файлът трябва да бъде в:

http://primerensait.com/robots.txt

Този текстови файл съдържа инструкци за уеб роботите, зададени в специфичен формат, които те стриктно изпълняват. Ако този файл не съществува, уеб роботите предполагат, че собственикът на сайта не желае да изпълняват конкретни инструкции и следователно обхождат целия сайт - всяка една негова страница, под страница, статия, линк и т.н.

Robots.txt файлът може да подава различни инструкции на уеб паяците, като например кои страници да обхождат или кои страници да не обхождат.

В случай, че във Вашият сайт има качена информация, която не желаете да бъде визуализирана в търсачки като Google, Bing, Yahoo и т.н., чрез robots файла може да скриете тези страници от тях.

Независимо колко уеб сайта има разположени във Вашия хостинг, всеки уеб сайт има свой собствен robots.txt файл.

Кои са най-често използваните инструкции в robots.txt?

Може да контролирате роботите/паяците посещаващи Вашия уеб сайт, чрез някои от следните команди, въвеждайки ги във файла robots.txt

Чрез тази инструкция Вие казвате на роботите, че желаете да обходят напълно Вашия уеб сайт и всяка една негова страница.

User-agent: *
Disallow:

Чрез следния код ще може да скриете от уеб роботите конкретни директории:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Следващата команда оказва на роботите да стоят настрана от определен файл:

User-agent:*
Disallow: /directory/file.html

Може да блокирате конкретни роботи да не посещават Вашия уеб сайт:

User-agent:
BadBot _# replace 'BadBot' with the actual user-agent of the bot_
Disallow: /

Необходимо е да замените името BadBot с името на този робот, който не искате да има достъп до Вашия сайт.

Използвайки следната команда скривате една единствена папка от един определен робот:

User-agent:
BadBot _# replace 'BadBot' with the actual user-agent of the bot_
Disallow: /private/

Чрез последната команда може да блокирате достъпа на всички ботове до Вашия уеб сайт:

User-agent: *
Disallow: /

По този начин може да сте сигурни, че ботовете няма да генерират трафик към Вашия сайт.

Спиране на ботовете, обхождащи Вашия сайт, чрез .htaccess

Освен чрез файла robots.txt, може да спрете посещенията на нежелани ботове към Вашия уеб сайт, чрез залагането на следния код в .htaccess файла на Вашия уеб сайт:

BrowserMatchNoCase \*bot bad_bot   
BrowserMatchNoCase bot\* bad_bot   
Order Deny,Allow   
Deny from env=bad_bot   
  
RewriteCond %{HTTP_USER_AGENT} ^-?$   
RewriteRule ^ - [F]

Необходимо е да земените bad_bot с името на конкретния бот, който желаете да не посещава Вашия уеб сайт.

Например ако не желаете Google бот да посещава Вашия уеб, .htaccess кодът ще изглежда по следния начин:

BrowserMatchNoCase \*bot Googlebot   
BrowserMatchNoCase bot\* Googlebot   
Order Deny,Allow   
Deny from env=Googlebot   
  
RewriteCond %{HTTP_USER_AGENT} ^-?$   
RewriteRule ^ - [F]

Повече информация относно имената на паяците/роботите на Google може да откриете на следния адрес:

https://support.google.com/webmasters/answer/1061943?hl=en

Скриване на директории от ботове чрез robots.txt

Нека вземем за пример един сайт разработен под системата Joomla.

В случай, че желате конкретни директории да бъдат неизвестни за роботите, можете да ги ограничите като заложите следните инструкции в robots.txt файла:

User-agent: *   
Disallow: /administrator/   
Disallow: /cache/   
Disallow: /components/   
Disallow: /images/   
Disallow: /includes/   
Disallow: /installation/   
Disallow: /language/   
Disallow: /libraries/   
Disallow: /media/   
Disallow: /modules/   
Disallow: /plugins/   
Disallow: /templates/   
Disallow: /tmp/   
Disallow: /xmlrpc/

Например ако желаем да забраним достъпа на ботовете до папка с име icntest123, добавяме следния ред:

Disallow: /icntest123/

Ето и подробни изображения как можем да създадем robots.txt файл и да въведем желаните от нас инструкции:

Използването на уеб роботи улеснява откриването на Вашия уеб сайт в Google и други популярни уеб търсачки и е един добър старт за неговата SEO оптимизация и реклама без влагане на финансов ресурс.

WARNING: Имайте предвид, че промените в конфигурацията за обхождане от ботове могат също така да повлияят и на SEO оптимизацията на Вашия сайт. Поради тази причина Ви препоръчваме, ако не сте сигурни какво е необходимо да промените, винаги да се консултирате с техническо лице, което е добре запознато в тази област.