Robots.txt е текстови файл предназначен да насочва ботовете на търсещите машини в сайта, като им оказва кои части от него да обхождат и кои не. Работата по robots.txt често е досадна и скучна част от техническото SEO, но малките детайли също са част от голямата картина, затова искаме да Ви представим основните положения в този файл.
Служебни думи и символи:
User-agent – показва на ботаза коя търсеща машина се отнася правилото
Disallow – забранява на бота да обхожда съответната област (директория или файл)
Allow – позволява на бота да обхожда съответната област (директория или файл)
Crawl-delay – можете да посочите след след колко време желаетеботътотново да обхожда сайта (google bot пренебрегва това правило)
Sitemap – показва мястото на картата на сайта
Noindex – показва на бота, че съответната област не трябва да бъде индексирана
# – знак, отбелязващ начало на ред с коментар – може да го използвате за свои бележки във файла
* -използва се, за да се окаже правило за всички ботове – напр.: User-agent: *
Важни правила и съвети за файла:
– Robots.txt файлът трябва да се намира в основната директория на сайта – http://site.com/robots.txt
– Всеки поддомейн трябва да има собствен robots.txt файл
– Въпреки всичките Ви усилия е възможно търсачките да игнорират правилата, които сте написали в robots.txt
– Внимавайте с големите и малките букви в robots.txt, тъй като те имат значение
– Ако на сайта Ви по някаква причина сте допуснали дублиране на съдържание, не се опитвайте да решите проблема чрез robots.txt
– Максималният размер на robots.txt файла е 500kb