Wie funktionieren Suchmaschinen?

marketingmixtur_seo_wie_funktionieren_suchmaschinen

Crawling the web

Suchmaschinen müssen jedes Wort auf möglichst jeder Webseite des World Wide Web kennen. Um dies zu erreichen, kommen sogenannte Crawler (auch Spider genannt) zum Einsatz. Bei einem Crawler handelt es sich um eine Software, die den Inhalt einer Webseite analysiert. Diese Analyse kann aus verschiedenen Teilen bestehen. Ein existenzieller Bestandteil dieser Analyse ist es die enthaltenen Hyperlinks zu extrahiert.

Die gefunden Links enthalten typischerweise URLs, die auf weitere Webseiten verweisen. Der Crawler merkt sich diese Webseiten. Nachdem er die Analyse der ursprünglichen Webseite abgeschlossen hat, nimmt er sich schrittweise die neu gefundenen Webseiten vor.

Diese Vorgehensweise lässt sich in sogenannten Pseudo-Code (also keine richtige Programmiersprache, sondern eher eine generelle „Anleitung“) so beschreiben:

  1. Hole die nächste WEBSEITE aus der WEBSEITENLISTE
  2. Analysiere die WEBSEITE (z.B. lies alle Wörter aus)
  3. Extrahiere die LINKS
  4. Füge für jeden LINK eine WEBSEITE zur WEBSEITENLISTE hinzu
  5. Gehe zu 1.

Am Anfang muss nur eine initiale Webseite in die Webseitenliste eingefügt werden und schon kann es losgehen.
Natürlich müssen noch einige Feinheiten beachtet werden, wie beispielsweise das Aufschlüsseln relativer Link-Angaben oder die Überprüfung, ob die Webseite bereits in der Webseitenliste vorhanden ist, bevor diese eingefügt wird. Das Prinzip dürfte aber nun klar sein.

In modernen Suchmaschinen, wie Google werden solche Crawl-Vorgänge parallel ausgeführt. Das bedeutet, dass mehrere Programm-Instanzen zur selben Zeit, das Crawlen einer Website arbeitsteilig übernehmen.

Die erkannten Links werden ebenfalls gespeichert. Diese Informationen können in einem anderen Zusammenhang noch von Bedeutung sein. Zum Beispiel, wenn es um die Frage der Reihenfolge geht, in der die Suchergebnisse präsentiert werden – doch dazu später mehr.

Wie oft eine Website gecrawlt wird, hängt von der Beschaffenheit der Seite selbst ab. Hierbei fahren Suchmaschinen wie Google oder Bing zweigleisig: Einerseits lassen Sie den Webmaster selbst angeben, in welchem Intervall der Crawler vorbeischauen soll. Ergänzend dazu findet eine Priorisierung seitens der Suchmaschine statt. Dies führt dazu, dass z.B. renommierte Tageszeitungen häufiger gecrawlt werden, als private Blogs.

Heute ist der Stand der Technik der, dass neue Seiten in der Regel binnen weniger Stunden bis Tage in den Suchmaschinenindex aufgenommen werden. Dies mag durchaus als ausreichend erscheinen, von einer Erfassung in Echtzeit aller neuen Inhalte sind wir allerdings noch weit entfernt.

Zusammenfassung

Suchmaschinen setzen Programme –sogenannte Crawler – ein, um den Inhalt von Webseiten zu erfassen. Dies geschieht fortlaufend im Hintergrund und nicht erst, sobald eine Suchanfrage getätigt wird. Wie oft eine Website gecrawlt wird, hängt von deren Angaben und der Einschätzung durch die Suchmaschine ab.
Was wir noch nicht wissen ist, wie eine Suchmaschine herausfindet, welche Inhalte besonders gut zu der eigegebenen Suchanfrage passen. Hier von handelt der nächste Abschnitt. Weiter lesen…


Artikel-Übersicht:

Pages: 1 2 3 4 5

You can leave a response, or trackback from your own site.

Leave a Reply