Suchmaschine

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden.

Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind

Erstellung und Pflege eines Indexes (in einer Meta-Datenbank),
Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.

In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem. Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, handelt es sich nicht um eine Suchmaschine sondern um einen Katalog (auch Verzeichnis genannt). In solchen Verzeichnissen wie beispielsweise Yahoo! und dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.

Metasuchmaschinen schicken Suchanfragen parallel an mehrere normale Suchmaschinen und kombinieren die Einzelergebnisse zu einer Ergebnisseite. Als Vorteil ist die größere (da kombinierte) zugrundeliegende Datenmenge zu nennen. Ein Nachteil ist die lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung (welche Seite taucht in den meisten verwendeten Suchmaschinen auf?) von fragwürdigem Wert.

Als Desktop-Suchmaschine werden Computerprogramme bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.

So genannte Echtzeit-Suchmaschinen starten den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.

Manche Suchmaschinen bieten den Benutzern einen kleinen Ausschnitt aus den Suchanfragen anderer Nutzer, eine Life-Suchfunktion. Zum Beispiel Lycos, Seekport oder auch Fireball

Ranking

Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz (Ranking), wofür jede Suchmaschine ihre eigenen, geheimen Kriterien heranzieht. Dazu gehören:

Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument.
Einstufung und Anzahl der zitierten Dokumente.
Häufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis enthaltene Dokument sowie in Verweisen enthaltener Text.
Einstufung der Qualität der verweisenden Dokumente (ein Link von einem „guten“ Dokument ist mehr wert als der Verweis von einem mittelmäßigen Dokument).

Größere Bekanntheit erlangt hat PageRank, eine Komponente des Ranking-Algorithmus' der erfolgreichen Suchmaschine Google.

Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz für die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme auf ihre Ausgabe zu.

Geschichte

Archie kann als ältester Vorfahre der heute allseits bekannten Suchmaschinen und Webverzeichnisse angesehen werden.

Die weitere Entwicklung der Suchmaschinen ging über die Schritte WAIS, Gopher und Veronica.

Eine der ersten Web-Suchmaschinen war Lycos, die 1994 als Universitätsprojekt gestartet ist. Vorher gab es schon andere, z.B. Archie oder Veronica, die aber nicht mit einer graphischen Web-Oberfläche ausgestattet waren.

Herausforderungen

Mehrdeutigkeit – Suchanfragen sind oft unpräzise. So kann die Suchmaschine nicht selbständig entscheiden, ob beim Begriff Laster nach einem LKW oder einer schlechten Angewohnheit gesucht werden soll. Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer enthalten. Weiterhin wird oft Stemming verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (schöne Blumen findet so auch schöner Blume), außerdem wird die Anzahl der Begriffe im Index reduziert.
Datenmenge – Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das sogenannte Deep Web – noch gar nicht eingerechnet.
Aktualität – Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten immer wieder zu besuchen. Dies ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers.
Spam – Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dies, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
Technisches – Suche auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalität anbietet.
Rechtliches – Suchmaschinen werden meist international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen.