SES Gespräch über Google
Ein Bekannter hatte im Rahmen der SES mit einem Google Mitarbeiter (nennen wir ihn Mike) ein recht interessantes Gespräch bei dem einige Punkte zur Sprache kamen, die mich verblüfft haben und die ich noch nicht alle nachprüfen konnte ob sie stimmen, teilweise (Ask und DNS.org) weil ich keine Infos dazu gefunden habe. Er will das Gespräch nicht bloggen, also mach ich’s. Mir gehts hier weniger darum Gerüchte zu bloggen, als diese Punkte mal zur Diskussion zu stellen.
Aufbau des Google Index
Laut Googel-Mike hat Google einen Kern-Index mit weltweit 4-5 Mrd Datensätzen und für Deutschland 150 Mio Datensätze. Dieser Kernindex (Tier 1) greift 80-90% der Abfragen ab und alle Datensätze werden mindestens alle 7 Tage refresht.
Der Google Tier 1 Index hat ungefähr 1000 Instanzen, die über einen sogenannten Dispatcher angesprochen werden. Jede Instanz verwaltet also ca. 5 Mio Datensätze. Das heisst eine Suche wird auf die 1000 Instanzen verteilt und die liefern jeweils bis zu 100 Ergebnisse zurück, die über den Dispatcher dann sortiert werden. Die Instanzen liefern nur Dokumenten ID und die interne Relevanz zurück, der Dispatcher sortiert das dann und zeigt die besten 1000 Ergebnisse an.
Im Tier 2 Index sind Daten ca. 5 Mrd Daten mit schlechterer Qualität und ohne Pagerank-Berechnung. Die Anzeige von Daten aus dem Tier 2 Index dauert länger, da die Daten im Tier 2 nicht gecacht sind.
Das Ganze ist sicher nicht vollständig beschrieben und im übrigen kein Geheimnis, aber ich fand es trotzdem interessant, denn es erklärt einiges was man mit SEO-Analysen in den Serps bemerkt.
Google und multivariates Testen
Interessant war die Aussage zum Thema multivariates Testen. Mittlerweile werde das Thema bei Google so exzessiv betrieben, dass vorher nicht mal groß drüber nachgedacht wird was es bringen soll. Das überlegt man sich dann lieber nachher.
Er habe das Gefühl einige Google-Mitarbeiter werden dadurch immer verspielter und infantiler und ihr Denken setze immer mehr aus. Er fand aber auch, dass diese Infantilisierung sehr gut zu der permanenten Infantilisierung passe, die auch sonst bei Google betrieben werde, zB. durch das Aufstellen von Sammel-Schrott im gesamten Googleplex. Einige Büros seien dermaßen zugemüllt, dass es ihm fast körperlich weh tut.
Google und Ask.com
Mit zunehmendem Alkoholgenuss erzählt Google-Mike dann noch ganz beiläufig als wüßte das sowieso jeder, dass Ask.com von Google nur die Daten aus dem Tier 1 Index bekommt, was mich umgehauen hat. Ich finde nirgendwo was veröffentlicht, dass Ask auf Daten von Google basiert, also Ask nicht selbst crawlt, oder zumindest so gut wie. Auf ihrer Website geben sie ja Auskunft zum Crawler, aber wo ich drüber nachdenke taucht der Crawler nicht besonders oft in den mir bekannten Logfiles auf.
Ask bekommt laut Mike die Daten ohne die Pagerank-Berechnung und indexiert die Tier 1-Daten dann selbst. Findet Ask in dem Tier 1 Topf mal nichts, werden die Daten aus Tier2 direkt von Google über Schnittstelle nachgeliefert.
Google und DNS.org
Eine weitere Info, die ich sehr spannend fand, Google bekommt von dns.org auf täglicher Basis die Daten zu erstmals aufgetauchten URLs. Ob Yahoo und Microsoft die Daten auch auf täglicher Basis bekommen, konnte er nicht sagen, aber er konnte sagen, dass kleinere Suchdienste diese Infos garantiert nicht bekommen, dafür hätte Google gesorgt. “Don’t be evil” denk ich mir da, diese kleinen Google Schelme!
Spannende Infos. Das mit Google und Ask hab ich schon häufig gehört, kenne aber auch keine offizielle Quelle. Nachprüfen lässt sich das leicht, man muss nur mal in Ask.com nach [googlebot "my ip"] suchen. Dann finden sich in den Ergebnissen einige Treffer vom Typ “Show My IP-Address”, die im Snippet brav eine Google-IP sowie “Googlebot” als User-Agent ausspucken.