Die robots.txt-Datei ist eine Textdatei auf einer Website, die dazu dient, Suchmaschinen-Roboter und Webcrawler darüber zu informieren, welche Teile der Website indexiert (durchsucht) werden dürfen und welche nicht. Dieses Protokoll ist ein wichtiger Bestandteil der Suchmaschinenoptimierung (SEO) und ermöglicht Website-Betreibern die Steuerung darüber, welche Inhalte in den Suchergebnissen von Suchmaschinen wie Google, Bing oder Yahoo! angezeigt werden sollen.
Die robots.txt-Datei enthält spezifische Anweisungen in Form von „User-Agent“ (Roboter) und „Disallow“ (Ausschließen) oder „Allow“ (Erlauben) Direktiven. Hier sind einige grundlegende Konzepte im Zusammenhang mit der robots.txt-Datei:
Disallow: /private/
würde verhindern, dass der Roboter auf alle Seiten im Verzeichnis „private“ zugreift.Allow: /images/
kann spezifizieren, dass der Roboter auf Bilder im Verzeichnis „images“ zugreifen darf, obwohl andere Bereiche blockiert sind.Die robots.txt-Datei sollte im Stammverzeichnis der Website platziert werden (z. B. https://www.beispiel-website.de/robots.txt
) und ist öffentlich sichtbar. Sie dient jedoch eher als Anweisung an die Suchmaschinen und weniger als echte Sicherheitsmaßnahme. Suchmaschinen können die Anweisungen in der robots.txt-Datei befolgen, sind aber nicht verpflichtet, dies zu tun. Es ist wichtig sicherzustellen, dass die Datei ordnungsgemäß konfiguriert ist, um sicherzustellen, dass Suchmaschinen nicht unerwünschte Teile der Website indexieren.
Die Verwendung der robots.txt-Datei erfordert einige Kenntnisse in der Suchmaschinenoptimierung, da unsachgemäße Konfiguration dazu führen kann, dass wichtige Seiten nicht indexiert werden oder vertrauliche Informationen ungewollt preisgegeben werden. Daher sollte sie mit Vorsicht verwendet werden und sorgfältig konfiguriert werden.
Aufbau und Speicherort der robots.txt-Datei:
Die robots.txt
-Datei ist ein wichtiger Bestandteil der Steuerung des Crawling-Verhaltens von Suchmaschinen und anderen Web-Crawlern auf einer Website. Hier sind die wichtigsten Informationen zum Aufbau und Speicherort der robots.txt
-Datei:
1. De-facto-Standard: Die robots.txt
-Datei basiert auf einem De-facto-Standard. Obwohl sie kein offizieller RFC-Standard ist, wird sie in der Praxis weitgehend akzeptiert und verwendet. Website-Betreiber können darauf vertrauen, dass ordnungsgemäß erstellte Dateien entsprechend von Suchmaschinen behandelt werden. Es gibt jedoch keine Garantie dafür, dass alle Bots die Anweisungen befolgen.
2. Speicherort: Die robots.txt
-Datei muss im Root-Verzeichnis eines Webservers platziert werden. Dies ist das Hauptverzeichnis Ihrer Domain. Zum Beispiel, wenn Ihre Website unter „https://www.example.com“ erreichbar ist, sollte die robots.txt
-Datei unter „https://www.example.com/robots.txt“ gespeichert werden.
3. Dateinamen: Die robots.txt
-Datei muss vollständig in Kleinbuchstaben geschrieben werden. Wenn die Datei als „Robots.txt“ benannt wird, ignoriert Google den Inhalt. Der Dateiname sollte also immer „robots.txt“ sein.
Wichtiger Hinweis: Die robots.txt
-Datei dient ausschließlich dazu, das Crawling von Suchmaschinen und Crawlern zu steuern. Sie bietet keinen Zugriffsschutz für Benutzer. Webbrowser ignorieren die robots.txt
-Datei, und jeder Benutzer kann die Inhalte aufrufen. Wenn Sie Inhalte schützen möchten, sollten Sie zusätzliche Sicherheitsmaßnahmen wie Passwortschutz oder andere Zugriffskontrollen implementieren.
Aufbau der robots.txt
-Datei:
Die robots.txt
-Datei besteht in der Regel aus Anweisungen, die in zwei Zeilenblöcken aufgeteilt sind:
Beispiel für den Aufbau einer robots.txt
-Datei:
# Kommentar (einen Kommentar beginnt man mit einer Raute)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml
Syntax und Beispiele:
Hier sind einige wichtige Kommandos und deren Bedeutung in der robots.txt
-Datei:
#
: Einleitung eines Kommentars.*
: Wildcard (für User-Agent und URL-Fragmente).$
: Pfadende (z.B., um bestimmte Dateitypen auszuschließen).User-agent:
: Der User-Agent (Bot), für den die Anweisungen gelten.Disallow:
: Verbietet den Zugriff auf einen bestimmten Bereich der Website.Allow:
: Erlaubt den Zugriff auf einen bestimmten Bereich der Website.Sitemap:
: Gibt den Speicherort der XML-Sitemap an.Beispiele für Anweisungen in der robots.txt
-Datei:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Googlebot
User-agent: Slurp
Allow: /
User-agent: *
Disallow: /
User-agent: *
Disallow: /gesperrtes-verzeichnis/
User-agent: *
Disallow: /*?
User-agent: *
Disallow: /verzeichnis/gesperrte-datei.html
Verwendung von Wildcards:
Wildcards sind eine Art regul
itweb kümmert sich seit 2011 im Zeitalter der Digitalisierung stets persönlich und mit viel Engagement um seine Kunden, damit diese sich auf ihr Business konzentrieren können. Wir sind Webdesigner, Programmierer, SEO-Consultants, Grafikdesigner und Kundenberater in einem. Wir helfen bei der Konzeptionierung, Erstellung und Optimierung Ihrer neuen Homepage. Wir bestellen auch beliebig viele Domains für Sie und hosten das komplette System. Grafikdesign inklusive Logoerstellung, Webdesign, Suchmaschinenoptimierung (SEO), Verwaltung von Email-Konten, Bereitstellung von Druck- bzw. Werbematerialien, Social Media Marketing und andere Leistungen runden das Angebot von itweb ab.