Фајл robots.txt — то је основни фајл који описује правила за обраду страница термина за роботе. Овај фајл је потребан за смернице основног име сајта, мапа сајта (sitemap.xml), отворених и затворених делова сајта.
Фајл robots.txt обухвата следеће директиве:
- User-agent — директива показује за шта робот следеће правила
- * - сви роботи
- Иандек — главни робот Иандек
- Гооглебот — главни робот Гоогле
- StackRambler — термин за робот-Комуникације
- Aport — термин за робот Апорт
- Слурп — робот Иахоо
- MSNBot — робот МСН
- Disallow — директива забране делу сајта
- Allow — директива дозволе делу сајта
- Host — директива упутства главног име сајта
- Ситемап— директива упутства мапе сајта (sitemap.xml)
- Crawl-delay — директива показује колико секунди робот може да чека одговор од сајта (потребно је на много преузетих ресурса, да робот није сматрао сајт недоступан)
- Clean-парам — директива описује динамички параметри утичу на садржај сајта
Помимо директив в robots.txt используются спец символы:
- * - любай (укључујући и празна) низ знакова
- $ — је ограничење правила
За израду robots.txt користе горе наведене директиве и пева симболе по следећем принципу:
- Наведено име робота за које се пише листу правила
(User-agent: * - правило за све роботе) - Пише списак забрањених дела сајта за одређени робот
( Disallow: / - забрана индексирање целог сајта) - Пише списак дозвољених секција сајта
(Allow: /home/ — дозвољен одељак хоме) - Наведено име сајта
(Host: crazysquirrel.ru — главно име сајта crazysquirrel.ru) - Показује апсолутна путања до датотеке sitemap.xml
(Ситемап: https:// crazysquirrel.ru/sitemap.xml)
Ако на сајту нема забрањених дела, robots.txt мора се састојати од најмање 4 линија:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Ситемап: https://crazysquirrel.ru/sitemap.xml
Проверите robots.txt и како он утиче на индексирање сајта помоћу алата Ыандекс