www.fabiankeil.de/blog-surrogat/2006/01/25/google-macken.html
Die Viren-Fern-Fehldiagnose scheint Pause zu haben, ich darf wieder über Google suchen – ich fühle mich geehrt.
In der Zwischenzeit habe ich Yahoo und seltener MSN Search benutzt, die Ergebnisse waren auch brauchbar. In nächster Zeit werde ich die Ergebnisse mal direkt vergleichen, mal sehen wer momentan führt.
MSN Search hätte ich auch öfter genutzt, mein Firefox kann Abfragen aus der Suchmaske jedoch nicht an MSN Search weitergeben und die Nachrüstung funktioniert nicht, da die Entwickler das Konzept vom abwärtskompatiblen JavaScript nicht verstanden haben und kaputte Links präsentieren.
Die gesamte Firefox-Suche ist eine Katastrophe, ich habe keine Ahnung, warum ich
nicht einfach das Muster für die Suchabfragen selbst vorgeben darf, so wie es über about:config
für das umständlichere Suchen aus der Adress-Zeile auch möglich ist. Wäre zehnmal einfacher,
aber ich schweife ab.
Da das Google-Kompetenz-Team den Virenscan endlich unter Kontrolle bekommen hat, wäre nun die Zeit, sich um zwei weitere Probleme zu kümmern. Ein altes harmloses und ein neues nervendes, welches täglich nerviger wird.
Inline-Elemente erzeugen keine Leerzeichen, es sei denn, man hilft mit Style Sheets nach.
Mehrkanal-<abbr title="Compact Disc">CD</abbr>s
wird
Mehrkanal-CDs
oder, wenn das Abbr-Element nicht unterstützt
wird, Mehrkanal-CDs
gerendert.
Nie aber Mehrkanal- CD s
, denn das sieht nicht nur bescheuert
aus, sondern stört auch beim Lesen.
Alle Suchmaschinen machen es richtig – bis auf Google.
Der Googlebot, also das Programm, das Googles Datenbank füllt und andere Websites abgrast, galt die letzten
Jahre als eines der besseren. Er ruft bereits indizierte Seiten nur nach Änderungen oder gelegentlich zur
Kontrolle ab, berücksichtigt aber ansonsten 304
er.
404
er kamen manchmal über externe fehlerhafte
Links zustande, selbstständig erzeugte der Googlebot jedoch keine Fehler. Bis vor ein paar Tagen, als
der Amoklauf begann.
Am 09.01 wollte der Googlebot/2.1:
/privoxy-anleitung/...
, /bilder/produkt-erfahrungen/ibm-thinkpad-r51/E-mail
und
/%3Cbr%3E%3Cp%3E%3E%3C%3C
haben. Diese drei Dokumente hat es nie gegeben und sie wurden
auch noch nie zuvor angefordert.
Am 10.01 fragte Googlebot/2.1 nach /produkt-erfahrungen.htmlibm-thinkpad-r51/
,
ein weiteres Fantasieprodukt, gemischt aus den existierenden Seiten
/produkt-erfahrungen.html
und
/produkt-erfahrungen/ibm-thinkpad-r51/
.
Am 15.01 wurde drei direkt unter /
liegenden Seiten vom Googelbot
bei der Abfrage fälschlich ein /blog-surrogat/
vorangestellt, am
18.01 wollte er 18 weitere dieser Eigenkreationen.
Am 21.01 wurde die Taktik verändert, statt /blog-surrogat/
wurde /blog-surrogat//
vorangestellt. Wenn man statt /blog-surrogat/
/blog-surrogat//
anfordert ist das
zwar blöde, für den Server aber das gleiche. Wenn man jedoch statt /autor.html
/blog-surrogat//autor.html
anfordert, gibt es zwangsweise einen 404
er.
Vorgestern war der General-Vorsatz schon /blog-surrogat///
, gestern /blog-surrogat////
.
Heute ist dann wohl /blog-surrogat/////
dran.
Bei den fehlerhaften Zugriffen wurde auch nicht einfach der User Agent auf
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
gesetzt,
solche Spaßvögel soll es ja auch geben.
Nein, auch die Adresse passt:
fk@TP51 ~ $nslookup 66.249.66.46 Server: 127.0.0.1 Address: 127.0.0.1#53 Non-authoritative answer: 46.66.249.66.in-addr.arpa name = crawl-66-249-66-46.googlebot.com. Authoritative answers can be found from: 66.249.66.in-addr.arpa nameserver = ns4.google.com. 66.249.66.in-addr.arpa nameserver = ns1.google.com. 66.249.66.in-addr.arpa nameserver = ns2.google.com. 66.249.66.in-addr.arpa nameserver = ns3.google.com. ns1.google.com internet address = 216.239.32.10 ns2.google.com internet address = 216.239.34.10 ns3.google.com internet address = 216.239.36.10 ns4.google.com internet address = 216.239.38.10