www.fabiankeil.de/blog-surrogat/2006/01/25/google-macken.html

Google-Suche wieder nutzbar

Die Viren-Fern-Fehldiagnose scheint Pause zu haben, ich darf wieder über Google suchen – ich fühle mich geehrt.

In der Zwischenzeit habe ich Yahoo und seltener MSN Search benutzt, die Ergebnisse waren auch brauchbar. In nächster Zeit werde ich die Ergebnisse mal direkt vergleichen, mal sehen wer momentan führt.

MSN Search hätte ich auch öfter genutzt, mein Firefox kann Abfragen aus der Suchmaske jedoch nicht an MSN Search weitergeben und die Nachrüstung funktioniert nicht, da die Entwickler das Konzept vom abwärtskompatiblen JavaScript nicht verstanden haben und kaputte Links präsentieren.

Die gesamte Firefox-Suche ist eine Katastrophe, ich habe keine Ahnung, warum ich nicht einfach das Muster für die Suchabfragen selbst vorgeben darf, so wie es über about:config für das umständlichere Suchen aus der Adress-Zeile auch möglich ist. Wäre zehnmal einfacher, aber ich schweife ab.

Weitere Nervereien

[Schriftzug Gurke in Anlehnung an Google-Logo. Ähnliche Farben und Schriftart.] Da das Google-Kompetenz-Team den Virenscan endlich unter Kontrolle bekommen hat, wäre nun die Zeit, sich um zwei weitere Probleme zu kümmern. Ein altes harmloses und ein neues nervendes, welches täglich nerviger wird.

Leerzeichen-Bug

[Google-Screenshot mit Leerzeichen wo keine sein dürften.] Inline-Elemente erzeugen keine Leerzeichen, es sei denn, man hilft mit Style Sheets nach.

Mehrkanal-<abbr title="Compact Disc">CD</abbr>s wird Mehrkanal-CDs oder, wenn das Abbr-Element nicht unterstützt wird, Mehrkanal-CDs gerendert.

Nie aber Mehrkanal- CD s, denn das sieht nicht nur bescheuert aus, sondern stört auch beim Lesen.

Alle Suchmaschinen machen es richtig – bis auf Google.

Googlebot-Amoklauf

Der Googlebot, also das Programm, das Googles Datenbank füllt und andere Websites abgrast, galt die letzten Jahre als eines der besseren. Er ruft bereits indizierte Seiten nur nach Änderungen oder gelegentlich zur Kontrolle ab, berücksichtigt aber ansonsten 304er.

404er kamen manchmal über externe fehlerhafte Links zustande, selbstständig erzeugte der Googlebot jedoch keine Fehler. Bis vor ein paar Tagen, als der Amoklauf begann.

Am 09.01 wollte der Googlebot/2.1: /privoxy-anleitung/..., /bilder/produkt-erfahrungen/ibm-thinkpad-r51/E-mail und /%3Cbr%3E%3Cp%3E%3E%3C%3C haben. Diese drei Dokumente hat es nie gegeben und sie wurden auch noch nie zuvor angefordert.

Am 10.01 fragte Googlebot/2.1 nach /produkt-erfahrungen.htmlibm-thinkpad-r51/, ein weiteres Fantasieprodukt, gemischt aus den existierenden Seiten /produkt-erfahrungen.html und /produkt-erfahrungen/ibm-thinkpad-r51/.

Am 15.01 wurde drei direkt unter / liegenden Seiten vom Googelbot bei der Abfrage fälschlich ein /blog-surrogat/ vorangestellt, am 18.01 wollte er 18 weitere dieser Eigenkreationen.

Am 21.01 wurde die Taktik verändert, statt /blog-surrogat/ wurde /blog-surrogat// vorangestellt. Wenn man statt /blog-surrogat/ /blog-surrogat// anfordert ist das zwar blöde, für den Server aber das gleiche. Wenn man jedoch statt /autor.html /blog-surrogat//autor.html anfordert, gibt es zwangsweise einen 404er.

Vorgestern war der General-Vorsatz schon /blog-surrogat///, gestern /blog-surrogat////. Heute ist dann wohl /blog-surrogat///// dran.

Joe war es nicht

Bei den fehlerhaften Zugriffen wurde auch nicht einfach der User Agent auf Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) gesetzt, solche Spaßvögel soll es ja auch geben.

Nein, auch die Adresse passt:

fk@TP51 ~ $nslookup 66.249.66.46
Server:         127.0.0.1
Address:        127.0.0.1#53

Non-authoritative answer:
46.66.249.66.in-addr.arpa       name = crawl-66-249-66-46.googlebot.com.

Authoritative answers can be found from:
66.249.66.in-addr.arpa  nameserver = ns4.google.com.
66.249.66.in-addr.arpa  nameserver = ns1.google.com.
66.249.66.in-addr.arpa  nameserver = ns2.google.com.
66.249.66.in-addr.arpa  nameserver = ns3.google.com.
ns1.google.com  internet address = 216.239.32.10
ns2.google.com  internet address = 216.239.34.10
ns3.google.com  internet address = 216.239.36.10
ns4.google.com  internet address = 216.239.38.10