robots.txt

Tester pliku robots.txt – nowa opcja w Narzędziach dla Webmasterów

Google nie ustaje w rozbudowywaniu swoich Narzędzi dla Webmasterów – jak poinformowano włąśnie na Webmaster Central Blogu od dzisiaj mamy nową opcję – tester pliku robots.txt. Znajdziemy ją w sekcji Indeksowanie Po kliknięciu mamy informację o tym, czy nasz plik jest „zdrowy” Ale to nie wszystko – teraz możemy w prosty i .. obrazowy sposób sprawdzić, czy dany adres jest blokowany przed Googlebotem. Pod w/w ekranem znajdziemy drugi wpisując w polu adres strony, […]

Strona Z oraz BEZ www to dla Google dwa różne serwisy – dowód

Wczoraj zaobserwowałem ciekawe „zjawisko”, które wyraźnie pokazuje, dlaczego należy zawsze zadbać o to, aby dla swoich stron ustanawiać przekierowanie 301 na wybraną wersję – BEZ lub Z www. Na poniższej grafice widzimy na pierwszy rzut oka dziwną sytuację: serwis mamy w połowie „zablokowany przed indeksowaniem”, a w połowie … nie (pisząc serwis mam na myśli wersję Z i BEZ www) Ponieważ domena jest zamazana dodam, że w Google wpisano site:nazwa_domeny. Dodam też, […]

Błędy witryny – nowe informacje w Narzędziach Google

Zgodnie z informacją podaną właśnie na Webmaster Central Blogu Google od dzisiaj bardziej szczegółowo informuje webmasterów w Narzędziach dla Webmasterów związane z problemami z ich  stroną, które mogą wpłynąć na jej widoczność w wynikach wyszukiwania. Wchodząc w Narzędziach na opcję Kondycja/Błędy indeksowania rzuca się w oczy fakt, że błędy rozbito na 3 kategorie: DNS, Połączenie z serwerem, Pobieranie pliku robots.txt, z których każdą rozbito na szczegółowe informacje związane z danym zagadnieniem. I tak dla DNSów […]

Co lubi a czego nie lubi Googlebot – warto wiedzieć

Googlebot to „bardzo ważna persona”. Od niej zależy, czy strona zostanie zaindeksowana. Niekiedy pozornie błahostka sprawia, że się na nas, a właściwie naszą stronę, może „obrazić”. Jak np. w sytuacji, gdy robots.txt zwraca kod błędu 500 – w takiej sytuacji możemy zapomnieć w przypadku nowej strony o tym, że pojawi się w indeksie – zaś przy starej powinniśmy oczekiwać jej wyindeksowania – o czym pisałem nie tak dawno. Bardzo ciekawy artykuł można […]

Google indeksuje domeny, gdzie robots.txt zwraca błąd 500

Poproszono mnie dzisiaj o pomoc w sprawie pewnej domeny, która nagle zniknęła z Google. Znając jej adres – widziałem tę stronę parę tygodni temu – wiedziałem, że jest to młoda witryna, bez żadnej złej przeszłości, od pewnego czasu w indeksie Google – zatem przyjąłem, że zapewne właścicielowi chodzi o spadek w SERPach, związany z tzw. FSB (Fresh Site Bonus). Wiedziałem też, że strona nie bierze udziału w żadnych programach wymiany linków, nie ukrywa […]

Polecenie site pokazuje brak zaindeksowanych stron, ale witryna jest widoczna w Google

Do tej pory widziałem już kilka razy sytuacje, w których strona była widoczna w SERPach pomimo faktu, że była ona zablokowana przed robotami – z reguły w WordPressie w ustawieniach była założona systemowa blokada na etapie tworzenia serwisu – i po zakończeniu prac zapominało się ja zwyczajnie wyłączyć. Lub też istniał zapis w robots.txt blokujący stronę przez odwiedzaniem jej przez roboty wyszukiwarek: User-agent: * Disallow: / Ponieważ jednak istniały linki prowadzące do strony, zatem Google ją indeksowało, pokazując ją w SERPach […]

Maksymalna wielkość pliku robots.txt, którą potrafi przeczytać Google

Plik robots.txt wykorzystywany jest do ograniczania dostępu do stron serwisu przez roboty wyszukiwarek. Poprzez odpowiednie zapisy możemy np. wyłączyć z indeksowania te strony, na których nam nie zależy (oczywiście powinniśmy mieć na uwadze to, że jeżeli wyłączymy je z indeksowania, ale w sieci będą znajdowały się odnośniki do tychże stron, to … i tak będą one pojawiały się w Google) Nie spotkałem się do tej pory z jakimś specjalnie dużym plikiem, te, które wykorzystuję są standardowej postaci, nie są większe niż kilkanaście […]

Czy warto używać robots.txt gdy nie mamy nic do ukrycia przed robotami

Temat poruszany już wielokrotnie na chociażby Forum Pomocy Google dla Webmasterów. Dzisiaj został zadany w końcu samemu Mattowi … Jakie rozwiązanie jest najlepsze w takiej sytuacji? a) pusty plik robots.txt b) plik robots.txt zawierający User-agent: *Disallow c) nie zakładać w ogóle pliku Odpowiedź Matta jest interesująca. Otóż rozwiązanie c) jest … ryzykowne. Jego brak stwarza zagrożenie dla naszej strony ponieważ […]

Meta tag revisit-after oraz robots – kiedy używać

meta tag revisit-after -> <meta name=”revisit-after” content=”…”> Tutaj odpowiedź jest prosta – nie używać. Już w 2007 roku na swoim blogu Google jasno podkreśliło swoje stanowisko w kwestii revisit-after: Occasionally webmasters needlessly include „revisit-after” to encourage a search engine’s crawl schedule, however this meta tag is largely ignored. If you want to give search engines information about changes in your pages, use and […]

Czy do banerów reklamowych należy dodawać atrybut nofollow

Jak wiemy, w przypadku zakupu linków, aby być w zgodzie z Wytycznymi Google dla Webmasteró, należy je „zaopatrzyć” w atrybut nofollow. Co w przypadku grafiki? Otóż w przypadku zakupu takich linków od dużych firm specjalizujących się w sprzedaży banerów reklamowych są one w praktycznie każdym przypadku blokowane przed robotami – m.in. po to, aby roboty nie zliczały chociażby takich danych jak ilości klików – taka blokada dokonywana jest najczęściej poprzez plik […]

Zmiana firmy SEO – uważaj na robots.txt i znaczniki meta

Jakiś czas temu pisałem o tym, aby serwer i domenę kupić samemu, nie zostawiać tego firmie pozycjonującej, ponieważ czasami zdarza się, że … mamy później problem z „odzyskaniem” domeny.Firma rejestruje domenę na siebie, zamiast na swojego Klienta, a potem bezczelnie żąda on niego nawet i 20.000 zł za „przekazanie” domeny. No dobrze, ale jeżeli kupimy sami domenę i serwer, to i tak musimy „wpuścić” na serwer firmę SEO, aby ta zoptymalizowała go pod Google. No właśnie. I tutaj […]

Czy robots.txt można wpłynąć na optymalizację zachowań Goglebota

Kwestia poruszona tutaj dotyczyła sytuacji, w której np. w celu zablokowanie indeksacji części serwisu, wyłączamy ją z Google, aby po kilku dniach wrócić do status quo (moim zdaniem to trochę bez sensu, no ale zobaczmy co Matt na to). Hm…. Już raz było podobne pytanie i odpowiedź, jak i teraz brzmiała: NIEEEEEEEEEEEEEEEE !!!! 🙂 Plik robots.txt nie służy do czasowego wyłączanie dostępu do strony/sekcji/witryny w obrębie danego serwisu. Wprowadzenie takiej opcji spowodowałoby „dziwne zachowania” (można […]