O tym, że plik robots.txt służy do blokowania dostępu do wybranych części naszego serwisu robotom, wiemy już od dawna i ten fakt nie podlega wątpliwości. Niekiedy jednak można zauważyć w indeksie także i te strony, które .. jakiś czas temu zablokowaliśmy przed wizytą crawlerów. Dlaczego zatem są one widoczne?
Okazuje się, że nie wszyscy wiedzą, że jest – na pewno w przypadku Google – jeden „myk”, dzięki któremu opisana powyżej sytuacja może mieć miejsce. Są nią … linki prowadzące do stron zablokowanych w robots.txt. Jeżeli robot Google znajdzie odnośniki prowadzące do takiej witryny, to nie pomoże blokada – strona będzie mogła być zaindeksowana.
Objawem takiego stanu jest np. wyświetlanie się strony w wynikach bez description, pomimo faktu, że jest ono dostępne na stronie. Strona też pojawia się i znika w SERPAch, w dodatku z Title, który składa się m.in. z anchorów linków prowadzących do takiej strony.
Co zrobić, aby wyprostować opisaną wyżej sytuację? Otóż najprostszym jest rozwiązanie odwrotne, tzn. usunięcie linków.
Można jeszcze dopisać Noindex: (o którym Google nie pisze w dokumentacji), tak jak na http://googleads.g.doubleclick.net/robots.txt i żaden odnośnik nie pojawi się w indeksie.
User-Agent: *
Disallow: /
Noindex: /
Dzięki Colin za cenną uwagę.