Maksymalna wielkość pliku robots.txt, którą potrafi przeczytać Google

Plik robots.txt wykorzystywany jest do ograniczania dostępu do stron serwisu przez roboty wyszukiwarek. Poprzez odpowiednie zapisy możemy np. wyłączyć z indeksowania te strony, na których nam nie zależy (oczywiście powinniśmy mieć na uwadze to, że jeżeli wyłączymy je z indeksowania, ale w sieci będą znajdowały się odnośniki do tychże stron, to … i tak będą one pojawiały się w Google)

Nie spotkałem się do tej pory z jakimś specjalnie dużym plikiem, te, które wykorzystuję są standardowej postaci, nie są większe niż kilkanaście linijek kodu – jednak czasem przechodziła mi przez głowę myśl, jaka jest graniczna wielkość pliku, do której Goglebot „potrafi sobie poradzić”?

Wczoraj na swoim profilu Google+ John Mueller udzielił odpowiedzi na to pytanie – graniczną wartością jest 500 kB i … należy mieć to mocno na uwadze, ponieważ jeżeli coś ważnego będzie się znajdowało daleko w kodzie, może nie zostać po prostu uwzględnione przez robota – Goglebot „nie czyta” bowiem poza 500 kB.

Jak unikać takich sytuacji? Rozwiązanie jest banalne – nie twórzmy tak bardzo rozbudowanych plików robots.txt 🙂

The simple solution is to limit your robots.txt files to a reasonable size :-).

Warto zapoznać się przy okazji ze specyfikacją z tego zakresu.

5 komentarzy do “Maksymalna wielkość pliku robots.txt, którą potrafi przeczytać Google

  1. „te, które wykorzystuję są standardowej postaci”

    Tak z ciekawości, jaka postać ? Głównie ciekawi mnie, jakie boty blokujesz ?

    1. Miałem na myśli to, że taki typowy plik, nawet sklepu, zawiera owe kilkanaście linijek 🙂
      W Polsce blokować warto wszystko poza … Google, ewentualnie Bingiem.

  2. Jesteś pewny, że google zaindeksuje strone mimo, że będzie zablokowana w robots bo w sieci są do niej linki?

    „Poprzez odpowiednie zapisy możemy np. wyłączyć z indeksowania te strony, na których nam nie zależy (oczywiście powinniśmy mieć na uwadze to, że jeżeli wyłączymy je z indeksowania, ale w sieci będą znajdowały się odnośniki do tychże stron, to … i tak będą one pojawiały się w Google)”

    1. Tak, to już stary temat, chyba z rok temu pisałem o tym na blogu – plus wątek kilka razy przewijał się m.in. na Forum Google

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *