|
Einzelheiten zum ScriptIm Normalfall scheint es überflüssig zu erscheinen, bei
einer Scriptbescheibung extra auf Einzelheiten der Metatags im Head einzugehen. Wenn wir
dennoch mit dem Head hier beginnen, so aus gutem Grund. Hierzu sollte ein Nutzer wissen,
die eingehen Daten werden vom Amazon-Webserver als UTF-8 kodierte XML-Datei ausgegeben und
angeliefert. Weiterhin dürften viele Hoster ihre Webserver für den UTF Unicode
konfiguriert haben, um diesen für interne Programmabläufe zu verwenden und Parser
arbeiten wohl in der Regel ohnehin mit dem Unicode. Irrtümer sind hier vorbehalten, wir
sind keine Serverspezialisten, doch was läge da näher, als bei der Ausgabe dieses
Scriptes auch den Unicode zu verwenden? Um enthaltene Umlaute im Webbrowser richtig anzuzeigen, gibt es zwei Wege. Zum einem könnte die Ausgabe mit einer Dekodierung verbunden werden, zum anderem reicht es aus, wenn die ausgebende Seite und das Formular als Zeichencodierung ebenfalls Unicode verwendet. Dieser Weg wurde beim Script für Unicode gewählt. Wichtig ist hierbei nur den Browser durch die Deklarierung charset=UTF-8" im Head der Seite darauf hinzuweisen. Ansonsten könnte es geschehen, dass im Browser Hieroglyphen statt Umlaute angezeigt werden. <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <title>Hallo, ich bin ein Head für UTF-8 kodierte Dokumente</title> <meta http-equiv="content-type" content="text/html; charset=UTF-8"> <link rel="stylesheet" type="text/css" href="demos.css"> </head> <body bgcolor="#F1EDDA"> <h1 align="center">Ein Demo mit SimpleXML</h1> <div align="center"><center> Erschwerend ist bei dieser Variante, dass Sie Umlaute im Text nicht wie gewohnt schreiben können, sondern eine Schreibweise wie in den Beispielen verwenden müssen. Beispiele: ä ö ü Weiterhin wurde im Head auf nachfolgende Zeile verzichtet. So wie hier wäre es zwar richtig die Spider (werden zuweilen auch als Robots, Suchrobots oder Crawler bezeichnet) anzuweisen, dass sie die Seite indexieren sollen, hat aber den Nachteil, dass sie auch den Links zur nächsten Seite folgen und selbst Eingaben vom Formular, bzw. die sich daraus ergebenen Querystrings als neue Seiten interpretieren. <meta name="robots" content="index, follow"> Nicht bei dieser Domain, doch bei einer anderen Website des
Autors geschah folgendes. Aus drei Scriptseiten mit Literatur wurden auf wundersame Weise
ohne sein Zutun rund 2.500 Literaturseiten. Hört sich gut an? Nein ganz und gar nicht, da
diese so indexierten Seiten alle im Supplemental Index (Zweiter Index als
Abstellgleis) von Google lagen. Eine starke Domain verkraftet das, allerdings ohne
jedweden Nutzen. Eine neue oder schwache Domain kann dadurch regelrecht
"verbrennen" und ist dann nur noch für den Müllschlucker gut geeignet. Abhilfe schaffte jedoch einen Teil des Querystrings per robots.txt zu sperren. Dadurch werden nur die wirklich angelegten Seiten gespidert, nicht aber die Seiten, die am Ende des Querystrings ItemPage=1, ItemPage=2 usw. enthalten. Erreichen kann ein Nutzer das beim vorliegendem Script mit folgendem Eintrag in der robots.txt, wobei die Sternchen als Platzhalter dienen. User-agent: * Disallow: /*ItemPage Doch keine Angst, zu Testzwecken kann dieses Script auch erst einmal so einige Tage oder Wochen verwendet werden, da es schon eine Zeit dauert, bevor die Spider in ungeahnte Tiefen vordringen und weitere Seiten aus diesen Tiefen in den Index der Sumas aufgenommen werden. Wer mehr über die Einrichtung einer robots.txt erfahren möchte, sollte sich einmal auf dieser Seite umsehen: Blockieren oder Entfernen von Seiten Vielleicht noch der Hinweis, beim Querystring handelt es sich um den Teil, der bei einer URL hinter dem Fragezeichen angehängt wird, um so erforderliche Parameter an die nächste Seite zu übergeben. |
Finden und - Optimierung -
Übersicht Amazon Web
Service |
||||||||||
Copyright © 2008 - Verlag Horst Müller - Stendal | Datenschutz | Nutzungsbedingungen | ||||||||||||