03-09-2010

Indeksowanie przez Google stron zablokowanych w robots.txt

O tym, że plik robots.txt służy do blokowania dostępu do wybranych części naszego serwisu robotom, wiemy już od dawna i ten fakt nie podlega wątpliwości. Niekiedy jednak można zauważyć w indeksie także i te strony, które .. jakiś czas temu zablokowaliśmy przed wizytą crawlerów. Dlaczego zatem są one widoczne?

Okazuje się, że nie wszyscy wiedzą, że jest – na pewno w przypadku Google – jeden „myk”, dzięki któremu opisana powyżej sytuacja może mieć miejsce. Są nią … linki prowadzące do stron zablokowanych w robots.txt. Jeżeli robot Google znajdzie odnośniki prowadzące do takiej witryny, to nie pomoże blokada – strona będzie mogła być zaindeksowana.

Objawem takiego stanu jest np. wyświetlanie się strony w wynikach bez description, pomimo faktu, że jest ono dostępne na stronie. Strona też pojawia się i znika w SERPAch, w dodatku z Title, który składa się m.in. z anchorów linków prowadzących do takiej strony.

Co zrobić, aby wyprostować opisaną wyżej sytuację? Otóż najprostszym jest rozwiązanie odwrotne, tzn. usunięcie linków.

2 komentarze do “Indeksowanie przez Google stron zablokowanych w robots.txt”

Colin pisze:
03-09-2010 o 11:51
Można jeszcze dopisać Noindex: (o którym Google nie pisze w dokumentacji), tak jak na http://googleads.g.doubleclick.net/robots.txt i żaden odnośnik nie pojawi się w indeksie.
Odpowiedz
1. Seo-Profi pisze:
  04-09-2010 o 16:42
  User-Agent: *
  Disallow: /
  Noindex: /
  Dzięki Colin za cenną uwagę.
  Odpowiedz

2 komentarze do “Indeksowanie przez Google stron zablokowanych w robots.txt”

Dodaj komentarz Anuluj pisanie odpowiedzi