Sicherheit der Webseite mit Robots.txt

Mit der kleinen auf den Webspace hochgeladenen Text-Datei namens robots.txt können bestimmte Seiten Ihrer Webpräsenz vor einer Indexierung durch Suchmaschinen schützen. Diese Vorgehensweise dürfte allgemein bekannt sein.
Weniger bekannt ist, dass man mit der robots.txt auch verschiedene Crawler ausschließen kann, die unerwünscht die eigene Webseite spidern und Inhalt auslesen.

Wie verhindern Sie das ausspidern Ihre Webseite durch unerwünschte Crawler?


Legen Sie eine Textdatei an und benennen Sie diese robots.txt. Tragen Sie die nachfolgenden Inhalte ein und speichern Sie die Datei. Kopieren Sie die robots.txt Datei in das Stammverzeichnis der Domain (dort wo Ihre index.html liegt).

Wie schließt man unerwünschte Crawler aus?


Tragen Sie folgende Codezeilen ein:

User-agent: grub-client Disallow: /

Damit wird z.B. dem Crawler namens “grub-Client” der Zugang zu Ihrer Webseite verwehrt!

Welche Crawler sollte man ausschließen?


Es gibt sehr viele Crawler die nur Traffik und keinen Nutzen bringen. Nachfolgend können Sie eine robots.txt Datei herunterladen, mit der Sie 123 Crawler ausschließen können. Sie brauchen diese Datei nur noch um Ihre bestehenden robots-Einträge erweitern oder Sie können die Datei sofort in das Stammverzeichnis der Webseite kopieren

Download: Robots.txt Datei


Aktueller Tipp

Anzeigen