Publikując witrynę w Sieci domyślnie udostępniamy wszystkie jej podstrony robotom. Aby to zmienić, należy posłużyć się plikiem robots.txt lub odpowiednim meta tagiem.
Przed pobraniem strony witryny robot sprawdza, czy w głównym katalogu domeny witrynie znajduje się plik robots.txt i jeżeli go nie ma sprawa jest jasna – stawiamy stronę „do dyspozycji pająków” (umieszczenie pliku w podrzędnym katalogu sprawi, że nie zostanie od odczytany).
Pełna indeksacja nastąpi też w dwóch innych sytuacjach: gdy plik istnieje, ale jest pusty lub zawiera następujące linie
User-Agent: * Disallow:
Pierwsza linijka oznacza, że reguła odnosi się do wszystkich robotów (symbol „gwiazdki”).
Jeżeli chcemy zablokować stronę przed wybranym robotem, np. przez Google, wówczas należy użyć następującej składni:
User-agent: Googlebot Disallow: /
Jeżeli chcemy zablokować stronę innym robotom, należy sprawdzić, jak nazywa się robot odpowiedzialny za indeksowanie stron w danej przeglądarce i wpisać jego nazwę w miejsce w/w Goglebot’a.
Drugi wiersz standardowego wpisu (Disallow…) określa nam jaką część serwisu chcemy zablokować. Można określić konkretny adres URL lub katalog. Wpis musi się zaczynać od ukośnika (/):
- Aby zablokować całą witrynę, należy użyć ukośnika.
Disallow: /
- Aby zablokować katalog i całą jego zawartość, po nazwie katalogu należy wpisać ukośnik.
Disallow: /katalog/
- Aby zablokować stronę, należy wpisać jej nazwę.
Disallow: /plik.html
Jak utworzyć plik robots.txt
Sprawa jest bardzo prosta – tworzymy pusty plik tekstowy, wpisujemy w nim odpowiednie formuły i zapisujemy go w kodowaniu ASCII.
Zamiast pliku robots.txt możemy użyć też odpowiedniego meta tagu. Jest to niewątpliwie gorsza metoda, ponieważ musimy przy zmianach edytować każdą stronę, a nie plik. Skłąd tagu jest następujący:
<meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow">
W pierwszym przykładzie, robot ma zaindeksować stronę oraz odwiedzić wszystkie linki (follow). W drugim ma odwiedzać linki, ale nie indeksować strony. W trzecim ma zaindeksować stronę, ale nie iść w głąb serwisu po linkach. I w czwartym – nie ma ani indeksować strony, ani odwiedzać linków, jakie się na niej znajdują.
Warto wiedzieć:
– jeżeli nie mamy potrzeby blokowanie jakiejś części naszego serwisu, możemy nie tworzyć pliku robots.txt ze standardowym ustawieniem umożliwiającym pełną indeksację serwisu. Google domyślnie przyjmuje, że zgadzamy się na to. Podobnie jest w przypadku meta tagu: standardowo jest zbędny.
– gdy mamy w pliku robots.txt ustawione „noindex, nofollow”, zaś jednocześnie na stronie znajduje się meta tag „index, follow”, wówczas nadrzędna jest zawartość pliku i wpisy w meta tagu nie mają już znaczenia
– blokując stronę przed robotem „Goglebot” tak naprawdę blokujemy ją przed wszystkimi robotami firmy Google, których nazwa zaczyna się do Goglebot.
- Googlebot: przemierza strony uwzględniane w indeksie witryn internetowych oraz Google News
- Googlebot-Mobile: odpowiada za indeksację stron stworzonych pod telefony komórkowe
- Googlebot-Image: bada strony, które są później uwzględniane w indeksie grafiki
- Mediapartners-Google: odpowiedzialny za ustalania treści reklamy AdSense. Ważne: sprawdza tylko te witryny, w których wyświetlane są reklamy AdSense.
- Adsbot-Google: używany jest do oceny jakości strony docelowej AdWords.
Dodam jeszcze, że nowy bot AdWords nie używa już robots.txt, wchodzi także na strony gdzie robots.txt blokowałby Adsbot-Google.
Jest to zresztą logiczne, bo trudno nazwać robotem automat pobierający stronę o adresie podanym przez użytkownika i niepodążający za linkami.