Plik robots.txt wykorzystywany jest do ograniczania dostępu do stron serwisu przez roboty wyszukiwarek. Poprzez odpowiednie zapisy możemy np. wyłączyć z indeksowania te strony, na których nam nie zależy (oczywiście powinniśmy mieć na uwadze to, że jeżeli wyłączymy je z indeksowania, ale w sieci będą znajdowały się odnośniki do tychże stron, to … i tak będą one pojawiały się w Google)
Nie spotkałem się do tej pory z jakimś specjalnie dużym plikiem, te, które wykorzystuję są standardowej postaci, nie są większe niż kilkanaście linijek kodu – jednak czasem przechodziła mi przez głowę myśl, jaka jest graniczna wielkość pliku, do której Goglebot „potrafi sobie poradzić”?
Wczoraj na swoim profilu Google+ John Mueller udzielił odpowiedzi na to pytanie – graniczną wartością jest 500 kB i … należy mieć to mocno na uwadze, ponieważ jeżeli coś ważnego będzie się znajdowało daleko w kodzie, może nie zostać po prostu uwzględnione przez robota – Goglebot „nie czyta” bowiem poza 500 kB.
Jak unikać takich sytuacji? Rozwiązanie jest banalne – nie twórzmy tak bardzo rozbudowanych plików robots.txt 🙂
The simple solution is to limit your robots.txt files to a reasonable size :-).
Warto zapoznać się przy okazji ze specyfikacją z tego zakresu.
„te, które wykorzystuję są standardowej postaci”
Tak z ciekawości, jaka postać ? Głównie ciekawi mnie, jakie boty blokujesz ?
Miałem na myśli to, że taki typowy plik, nawet sklepu, zawiera owe kilkanaście linijek 🙂
W Polsce blokować warto wszystko poza … Google, ewentualnie Bingiem.
Jesteś pewny, że google zaindeksuje strone mimo, że będzie zablokowana w robots bo w sieci są do niej linki?
„Poprzez odpowiednie zapisy możemy np. wyłączyć z indeksowania te strony, na których nam nie zależy (oczywiście powinniśmy mieć na uwadze to, że jeżeli wyłączymy je z indeksowania, ale w sieci będą znajdowały się odnośniki do tychże stron, to … i tak będą one pojawiały się w Google)”
Tak, to już stary temat, chyba z rok temu pisałem o tym na blogu – plus wątek kilka razy przewijał się m.in. na Forum Google
@adam: Zablokowane strony są widoczne w wynikach, ale bez tytułu z <title> i opisu.