robots.txt

Was versteht man unter robots.txt

Die robots.txt-Datei ist eine Textdatei auf einer Website, die dazu dient, Suchmaschinen-Roboter und Webcrawler darüber zu informieren, welche Teile der Website indexiert (durchsucht) werden dürfen und welche nicht. Dieses Protokoll ist ein wichtiger Bestandteil der Suchmaschinenoptimierung (SEO) und ermöglicht Website-Betreibern die Steuerung darüber, welche Inhalte in den Suchergebnissen von Suchmaschinen wie Google, Bing oder Yahoo! angezeigt werden sollen.

Die robots.txt-Datei enthält spezifische Anweisungen in Form von „User-Agent“ (Roboter) und „Disallow“ (Ausschließen) oder „Allow“ (Erlauben) Direktiven. Hier sind einige grundlegende Konzepte im Zusammenhang mit der robots.txt-Datei:

  1. User-Agent: User-Agent ist der Name des Suchmaschinen-Roboters oder Webcrawlers, auf den sich die Anweisungen beziehen. Zum Beispiel wird „Googlebot“ für den Google-Crawler verwendet. Es können auch Wildcards wie „*“ verwendet werden, um Anweisungen auf alle Roboter anzuwenden.
  2. Disallow: Die „Disallow“-Direktive gibt an, welche Teile der Website für den betreffenden Roboter nicht durchsucht werden dürfen. Zum Beispiel: Disallow: /private/ würde verhindern, dass der Roboter auf alle Seiten im Verzeichnis „private“ zugreift.
  3. Allow: Die „Allow“-Direktive hebt bestimmte „Disallow“-Anweisungen auf, indem sie festlegt, welche Teile der Website für den Roboter durchsuchbar sind. Zum Beispiel: Allow: /images/ kann spezifizieren, dass der Roboter auf Bilder im Verzeichnis „images“ zugreifen darf, obwohl andere Bereiche blockiert sind.
  4. Sitemaps: In der robots.txt-Datei kann auch auf eine XML-Sitemap verwiesen werden, die dem Roboter eine Liste von URLs zur Indexierung bereitstellt. Dies geschieht in der Regel mit der Zeile „Sitemap: [URL zur Sitemap]“.

Die robots.txt-Datei sollte im Stammverzeichnis der Website platziert werden (z. B. https://www.beispiel-website.de/robots.txt) und ist öffentlich sichtbar. Sie dient jedoch eher als Anweisung an die Suchmaschinen und weniger als echte Sicherheitsmaßnahme. Suchmaschinen können die Anweisungen in der robots.txt-Datei befolgen, sind aber nicht verpflichtet, dies zu tun. Es ist wichtig sicherzustellen, dass die Datei ordnungsgemäß konfiguriert ist, um sicherzustellen, dass Suchmaschinen nicht unerwünschte Teile der Website indexieren.

Die Verwendung der robots.txt-Datei erfordert einige Kenntnisse in der Suchmaschinenoptimierung, da unsachgemäße Konfiguration dazu führen kann, dass wichtige Seiten nicht indexiert werden oder vertrauliche Informationen ungewollt preisgegeben werden. Daher sollte sie mit Vorsicht verwendet werden und sorgfältig konfiguriert werden.

Aufbau und Speicherort der robots.txt-Datei:

Die robots.txt-Datei ist ein wichtiger Bestandteil der Steuerung des Crawling-Verhaltens von Suchmaschinen und anderen Web-Crawlern auf einer Website. Hier sind die wichtigsten Informationen zum Aufbau und Speicherort der robots.txt-Datei:

1. De-facto-Standard: Die robots.txt-Datei basiert auf einem De-facto-Standard. Obwohl sie kein offizieller RFC-Standard ist, wird sie in der Praxis weitgehend akzeptiert und verwendet. Website-Betreiber können darauf vertrauen, dass ordnungsgemäß erstellte Dateien entsprechend von Suchmaschinen behandelt werden. Es gibt jedoch keine Garantie dafür, dass alle Bots die Anweisungen befolgen.

2. Speicherort: Die robots.txt-Datei muss im Root-Verzeichnis eines Webservers platziert werden. Dies ist das Hauptverzeichnis Ihrer Domain. Zum Beispiel, wenn Ihre Website unter „https://www.example.com“ erreichbar ist, sollte die robots.txt-Datei unter „https://www.example.com/robots.txt“ gespeichert werden.

3. Dateinamen: Die robots.txt-Datei muss vollständig in Kleinbuchstaben geschrieben werden. Wenn die Datei als „Robots.txt“ benannt wird, ignoriert Google den Inhalt. Der Dateiname sollte also immer „robots.txt“ sein.

Wichtiger Hinweis: Die robots.txt-Datei dient ausschließlich dazu, das Crawling von Suchmaschinen und Crawlern zu steuern. Sie bietet keinen Zugriffsschutz für Benutzer. Webbrowser ignorieren die robots.txt-Datei, und jeder Benutzer kann die Inhalte aufrufen. Wenn Sie Inhalte schützen möchten, sollten Sie zusätzliche Sicherheitsmaßnahmen wie Passwortschutz oder andere Zugriffskontrollen implementieren.

Aufbau der robots.txt-Datei:

Die robots.txt-Datei besteht in der Regel aus Anweisungen, die in zwei Zeilenblöcken aufgeteilt sind:

  1. In der ersten Zeile gibt der Webmaster an, für welchen User-Agent (Bot) die Anweisungen gelten sollen. Zum Beispiel „User-agent: Googlebot“.
  2. In der zweiten Zeile wird das Verzeichnis oder der Bereich der Website angegeben, der für den ausgewählten User-Agent gesperrt („Disallow“) oder erlaubt („Allow“) ist. Zum Beispiel „Disallow: /verbotenes-verzeichnis/“ oder „Allow: /erlaubtes-verzeichnis/“.
  3. Es können auch Sitemap-Anweisungen hinzugefügt werden, um den Speicherort von XML-Sitemaps anzugeben. Zum Beispiel: „Sitemap: https://www.example.com/sitemap.xml“.

Beispiel für den Aufbau einer robots.txt-Datei:

# Kommentar (einen Kommentar beginnt man mit einer Raute)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml

Syntax und Beispiele:

Hier sind einige wichtige Kommandos und deren Bedeutung in der robots.txt-Datei:

Beispiele für Anweisungen in der robots.txt-Datei:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: Googlebot
User-agent: Slurp
Allow: /
User-agent: *
Disallow: /
User-agent: *
Disallow: /gesperrtes-verzeichnis/
User-agent: *
Disallow: /*?
User-agent: *
Disallow: /verzeichnis/gesperrte-datei.html

Verwendung von Wildcards:

Wildcards sind eine Art regul

Sie benötigen weitere Infos?
Webdesign aus Wien mit Erfahrung

itweb kümmert sich seit 2011 im Zeitalter der Digitalisierung stets persönlich und mit viel Engagement um seine Kunden, damit diese sich auf ihr Business konzentrieren können. Wir sind Webdesigner, Programmierer, SEO-Consultants, Grafikdesigner und Kundenberater in einem. Wir helfen bei der Konzeptionierung, Erstellung und Optimierung Ihrer neuen Homepage. Wir bestellen auch beliebig viele Domains für Sie und hosten das komplette System. Grafikdesign inklusive Logoerstellung, Webdesign, Suchmaschinen­optimierung (SEO), Verwaltung von Email-Konten, Bereitstellung von Druck- bzw. Werbematerialien, Social Media Marketing und andere Leistungen runden das Angebot von itweb ab.

Kontakt
Obachgasse 10
A-1220 Wien