We wczorajszym filmiku poproszono Matta o odpowiedź na tak postawione pytanie (pytanie było dłuższe, bardziej dokładne – chodziło m.in. o wskazanie priorytetów, jakimi kieruje się Google przy ustalaniu swojego rankingu). Nie oczekuje – i nie oczekiwałem – że zostanie to wyraźnie powiedziane – w końcu, jakby na to się nie patrzyć, jest to tajemnica firmowa.
Aby wyszukiwarka w dzisiejszych czasach odniosła sukces – w Internecie, jak i na rynku – („if you really want to be the best search engine” – mało trochę skromności, no ale 🙂 musi spełniać przynajmniej trzy zadania
1. należy umieć przemierzać sieć – w sposób dokładny i kompleksowy
2. należy indeksować znalezione w ten sposób strony
3. i na końcu należy zwracać najlepsze, z punktu widzenia osób zadających pytania, wyniki wyszukiwania
Przemierzanie przez roboty zasobów Internetu jest trudniejsze, niż by to się mogło nam wydawać. Kiedy Matt zaczynał swoją pracę w Google w 2000 roku nie do pomyślenia było, aby można było przejść wszystkie strony w Sieci w 3 czy 4 miesiące!
Nadal Pagerank odgrywa znaczną rolę, jeżeli chodzi o szybkość indeksacji. Im więcej osób linkuje do nas, im z lepszych jakościowo stron są te linki, tym szybciej taka docelowa strona zostaje zaindeksowana. Według moich obserwacji w czasie mniejszym niż minute – a kiedyś widziałem wyniki bardziej znanej witryny, która była indeksowana w kilkanaście sekund. Z tego, co kiedyś czytałem, jeżeli się nie myle, na najbardziej znanych portalach informacyjnych indeksowanie następuje niejako od razu po opublikowaniu newsa..
Matt na konkretnym przykładzie pokazuje, w jaki sposób Google w dzisiejszych czasach stara się dopasować do zapytań internatów tak, aby serwować im („zdaniem algorytmu”) najlepsze wyniki wyszukiwania.. Film jest o tyle ciekawy, że przedstawia nam nie tylko – w skrócie oczywiście – sposób działania wyszukiwarki, ale i nawiązuje do przeszłości. Kiedyś Google przemierzało sieć w 30 dni, potem przez tydzień analizowało dane, by w ciągu kolejnego tygodnia udostępniać go użytkownikom. Z tym był związany tzw. Google Dance – gdzie nie w każdym Data Centre były te same dane: jedne były z wcześniejszego przejścia, a inne – z najnowszego. To nie było dobre rozwiązanie – w Internecie 30 dni to zbyt długi okres. Dlatego w 2003 podzielono Internet na segmenty, które były indeksowane z różna częstotliwością – nawet i co 24h – tzw. update Fritz. Oczywiście nie można zapomnieć przy okazji o tzw. supplemental index – gdzie wpadały strony, których Google „nie chciało”, z powodu ich jakości, indeksować zbyt często. jak Twoja strona tam się znalazła, był spory problem, aby do niej dotrzeć za pośrednictwem Google.
Miłego oglądania 🙂
[youtube]http://www.youtube.com/watch?v=KyCYyoGusqs[/youtube]
Mat założył inną niż zwykle koszulkę? :]