„Suchmaschine“ – Versionsunterschied
[ungesichtete Version] | [gesichtete Version] |
NDG (Diskussion | Beiträge) Änderung 255826913 von Wikihype123 rückgängig gemacht; SEO-Bude, Werbelink Markierung: Rückgängigmachung |
|||
Zeile 1: | Zeile 1: | ||
Eine '''Suchmaschine''' ist ein [[Computerprogramm|Programm]] zur [[Recherche]] von [[ |
Eine '''Suchmaschine''' ist ein [[Computerprogramm|Programm]] zur [[Recherche]] von [[Datei|Dokumenten]], die in einem [[Computer]] oder einem [[Rechnernetz|Computernetzwerk]] wie z. B. dem [[World Wide Web]] gespeichert sind. Nach Erstellung einer Suchanfrage, oftmals durch Texteingabe eines Suchbegriffs, liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei werden verschiedene [[Suchverfahren]] verwendet. |
||
Die wesentlichen Bestandteile bzw. Aufgabenbereiche |
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind: |
||
* Erstellung und Pflege eines [[Datenbankindex| |
* Erstellung und Pflege eines [[Datenbankindex|Index]] ([[Datenstruktur]] mit Informationen über Dokumente), |
||
* Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie |
* Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie |
||
* Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. |
* Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. |
||
In der Regel erfolgt die ''Datenbeschaffung'' automatisch, im |
In der Regel erfolgt die ''Datenbeschaffung'' automatisch, im Internet durch [[Webcrawler]], auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen [[Dateisystem]]. |
||
== |
== Merkmale == |
||
Suchmaschinen sind [[Metamedium|Metamedien]], die gezielt Inhalte anderer Medien auffinden und abgreifen. Sie lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der Merkmalsgruppen entscheiden, ohne dass diese die Wahl der anderen Merkmale beeinflusst. |
|||
''Websuchmaschinen'' sind die bekannteste Form von Suchmaschinen. Sie durchsuchen das World Wide Web, das meistgenutzte [[Dateiformat]] ist hierbei [[HTML]]. |
|||
=== Art der Daten === |
|||
[[Metasuchmaschine]]n schicken Suchanfragen parallel an mehrere normale Suchmaschinen und kombinieren die Einzelergebnisse zu einer Ergebnisseite. Als Vorteil ist die größere (da kombinierte) zugrundeliegende Datenmenge zu nennen. Ein Nachteil ist die lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung (welche Seite taucht in den meisten verwendeten Suchmaschinen auf?) von fragwürdigem Wert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen von Vorteil. |
|||
Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält (häufig [[Textauszug|Snippet]] genannt). [[Bildersuchmaschine|Bildsuchmaschinen]] zeigen eine [[Vorschaubild|Miniaturansicht]] der passenden Bilder an. Eine [[Personensuchmaschine]] findet öffentlich verfügbare Informationen zu Namen und Personen, die als Linkliste dargestellt werden. Weitere spezialisierte Arten von Suchmaschinen sind zum Beispiel [[Jobsuchmaschine]]n, Branchensuchen oder [[Produktsuchmaschine]]n. Letztere werden vorrangig von Online-Preisvergleichen eingesetzt, es gibt aber auch schon lokale Angebotssuchen, die Produkte und Angebote stationärer Einzelhändler online darstellen. |
|||
Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei [[Usenet]]-Beiträgen nach bestimmten Autoren gesucht werden, bei [[Web]]seiten im [[Hypertext Markup Language|HTML]]-Format nach dem Dokumententitel. |
|||
Als ''Desktop-Suchmaschine'' werden neuerdings Programme bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen. |
|||
Je nach Datengattung ist als weitere [[Suchfunktion|Funktion]] eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die das Suchergebnis beispielsweise mit bestimmten [[Boolesche Algebra|Booleschen Ausdrücken]] ([[Konjunktion (Logik)|UND]], [[Disjunktion|ODER]], [[Negation#Logik|NICHT]]), nach einer bestimmten Sprache, einem bestimmten Land, einem bestimmten Zeitraum, einem bestimmten [[Dateiformat]] etc. aus den erfassten Daten herausfiltert. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für [[Blog|Weblogs]] (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat. |
|||
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch [[Lektor]]en vorgenommen, handelt es sich nicht um eine Suchmaschine sondern um einen ''[[Webkatalog|Katalog]]'' (auch ''Verzeichnis'' genannt). In solchen Verzeichnissen wie beispielsweise [[Yahoo!]] und dem [[Open Directory Project]] sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach [[Themen]] organisiert. |
|||
=== Datenquelle === |
|||
So genannte ''Echtzeit-Suchmaschinen'' starten den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht. |
|||
Ein anderes Merkmal zur Kategorisierung ist die Quelle, aus der die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle. |
|||
* ''Websuchmaschinen'' erfassen Dokumente aus dem World Wide Web, |
|||
* ''[[vertikale Suchmaschine]]n'' betrachten einen ausgewählten Bereich des World Wide Web und erfassen nur Webdokumente zu einem bestimmten Thema wie Fußball, Gesundheit oder Recht. |
|||
* ''Usenetsuchmaschinen'' Beiträge aus dem weltweit verteilten Diskussionsmedium Usenet. |
|||
* ''Intranetsuchmaschinen'' beschränken sich auf die Rechner des [[Intranet]]s einer Firma. |
|||
* ''[[Enterprise Search]] Suchmaschinen'' ermöglichen eine zentrale Suche über verschiedene Datenquellen innerhalb eines Unternehmens, wie z. B. Fileserver, Wikis, Datenbanken und Intranet. |
|||
* Als ''[[Desktop-Suchmaschine]]n'' werden Programme bezeichnet, die den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.<ref>Artur Hoffmann: ''Suchmaschinen für PCs''. In: ''[[PC Professionell]]'' 2/2007, S. 108ff.</ref> |
|||
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, spricht man von einem ''[[Webkatalog|Katalog]]'' oder ''Verzeichnis''. In solchen Verzeichnissen wie dem [[Open Directory Project]] sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert. |
|||
== Ranking / Suchrang == |
|||
Die Darstellung der Suchergebnisse geschieht sortiert nach [[Relevanz]] ([[Rangfolge|Ranking]] bzw. Suchrang), wofür jede Suchmaschine ihre eigenen, meist geheim gehaltenen Kriterien heranzieht. Dazu gehören: |
|||
=== Realisierung === |
|||
* Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument. |
|||
Dieser Abschnitt beschreibt Unterschiede in der Realisierung des Betriebs der Suchmaschine. |
|||
* Einstufung und Anzahl der zitierten Dokumente. |
|||
* Häufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis enthaltene Dokument sowie in Verweisen enthaltener Text. |
|||
* Einstufung der Qualität der verweisenden Dokumente (ein Link von einem „guten“ Dokument ist mehr wert als der Verweis von einem mittelmäßigen Dokument). |
|||
{{Mehrere Bilder |
|||
Größere Bekanntheit erlangt hat [[PageRank]], eine Komponente des Ranking-[[Algorithmus]] der erfolgreichen Suchmaschine [[Google]]. |
|||
| align = left |
|||
| Richtung = horizontal |
|||
| Kopfzeile = Klassifikation von Suchmaschinen |
|||
| Kopfzeile_align = left/right/center |
|||
| Kopfzeile_Hintergrund = |
|||
| Bild1 = Search-engine-diagram-de.svg |
|||
| Untertitel1 = Indexbasierte Suchmaschine |
|||
| Breite1 = 300 |
|||
| Bild2 = Meta-search-de.svg |
|||
| Untertitel2 = Metasuchmaschine |
|||
| Breite2 = 277 |
|||
| Bild3 = Federated-search-de.svg |
|||
| Untertitel3 = Föderierte Suchmaschine |
|||
| Breite3 = 277 |
|||
}}{{Absatz|links}} |
|||
* Die heutzutage wichtigste Gruppe sind ''[[Indexstruktur|indexbasierte]] Suchmaschinen''. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine [[Datenstruktur]], die bei einer späteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Index, Vorteil ist die Beschleunigung des Suchvorgangs. Häufigste Ausprägung dieser Struktur ist ein [[Invertierter Index]]. Grundlegende Vorarbeiten für die Entwicklung leistete die Informatikerin [[Karen Spärck Jones]], die statistische und linguistische Verfahren kombinierte.<ref>{{Internetquelle |autor=Nellie Bowles |url=https://www.nytimes.com/2019/01/02/obituaries/karen-sparck-jones-overlooked.html |titel=Overlooked No More: Karen Sparck Jones, Who Established the Basis for Search Engines (Published 2019) |werk=[[The New York Times|nytimes.com]] | sprache=en |datum=2019-01-02 |abruf=2024-02-03}}</ref> |
|||
Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz für die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei den großen Anbietern eine Trennung zwischen Suchergebnissen und als "bezahlte Treffer" markierte eingeblendeter Werbung durchgesetzt. Die "bezahlten Treffer" werden kontextbezogen zur Suchanfrage ausgegeben.Kaggewurst |
|||
* ''[[Metasuchmaschine]]n'' senden Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergeben sich die größere Datenmenge sowie die einfachere Implementierung, da kein Index vorgehalten werden muss. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung von fragwürdigem Wert. Die Qualität der Ergebnisse wird unter Umständen auf die Qualität der schlechtesten befragten Suchmaschine reduziert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll. |
|||
* Weiterhin existieren ''[[Hybridität|Hybridformen]]''. Diese besitzen einen eigenen, oft relativ kleinen Index, befragen aber auch andere Suchmaschinen und kombinieren schließlich die Einzelergebnisse. Sogenannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht. |
|||
* Ein relativ neuer Ansatz sind ''Verteilte Suchmaschinen'' bzw. ''Föderierte Suchmaschinen''. Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengeführt. Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und – je nach Sichtweise – die fehlende Möglichkeit, zentral zu [[Zensur (Informationskontrolle)|zensieren]]. Schwierig zu lösen ist allerdings das [[Suchmaschinenranking|Ranking]], also die Sortierung der grundsätzlich passenden Dokumente nach ihrer Relevanz für die Anfrage. |
|||
* Eine besondere Art der ''Verteilten Suchmaschinen'' sind die auf dem ''[[Peer-to-Peer]]''-Prinzip basierenden, die einen verteilten Index aufbauen. Auf jedem dieser Peers können unabhängige Crawler zensurresistent die Teile des Web erfassen, welche der jeweilige Peer-Betreiber durch einfache lokale Konfiguration definiert. Bekanntestes System ist, neben einigen vorwiegend akademischen Projekten (z. B. Minerva), die unter GNU-GPL freie Software ''[[YaCy]]''. |
|||
=== Interpretation der Eingabe === |
|||
== Geschichte == |
|||
Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Such[[algorithmus]] verständliche Form gebracht. Dies dient dazu, die [[Syntax]] der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren und die exakte Suche nach ein oder mehreren Worten in [[Anführungszeichen]].<ref>{{cite web|url=https://support.google.com/websearch/answer/2466433?hl=de|title=''Websuchen optimieren''|work=|accessdate=2021-01-07|url-status=live|archiveurl=https://web.archive.org/web/2020*/https://support.google.com/websearch/answer/2466433?hl=de|archivedate=2020-11-27}}</ref> Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht. |
|||
[[Archie]] kann als ältester Vorfahre der heute allseits bekannten Suchmaschinen und [[Webverzeichnis]]se angesehen werden. |
|||
Eine neuere Entwicklung ist die Fähigkeit von etlichen Suchmaschinen, implizit vorhandene Informationen aus dem Zusammenhang der Suchanfrage selbst zu erschließen und zusätzlich auszuwerten. Die bei unvollständigen Suchanfragen typischerweise vorhandenen Mehrdeutigkeiten der Suchanfrage können so reduziert, und die Relevanz der Suchergebnisse (das heißt, die Übereinstimmung mit den bewussten oder unbewussten Erwartungen des/der Suchenden) erhöht werden. Aus den semantischen Gemeinsamkeiten der eingegebenen Suchbegriffe wird (siehe auch: [[Semantische Suche]]) auf eine, oder mehrere, hinterliegende Bedeutungen der Anfrage geschlossen. Die Ergebnismenge wird so um Treffer auf semantisch verwandte, in der Anfrage jedoch nicht explizit eingegebene Suchbegriffe, erweitert. Dies führt in der Regel nicht nur zu einer quantitativen, sondern, vor allem bei unvollständigen Anfragen und nicht optimal gewählten Suchbegriffen, auch zu einer qualitativen Verbesserung (der Relevanz) der Ergebnisse, weil die in diesen Fällen eher unscharf durch die Suchbegriffe abgebildeten Suchintentionen durch die von den Suchmaschinen verwendeten statistischen Verfahren in der Praxis erstaunlich gut wiedergegeben werden (Siehe auch: [[semantische Suchmaschine]] und [[Latent Semantic Indexing]]). |
|||
Der erste Vorläufer der heutigen Suchmaschinen war eine im Jahr 1991 an der [[University of Minnesota]] maßgeblich von Paul Lidner und Mark P. McCahill entwickelte Software namens [[Gopher]]. Sie wurde als ''Campuswide Information System'' (CWIS) zur Vernetzung der dortigen Informationsserver entwickelt und basiert auf dem [[Client-Server-Prinzip]]. Die Struktur von Gopher war für den damaligen Zeitpunkt richtungsweisend; alle Gopher-Seiten wurden katalogisiert und konnten vom Gopher-Sucher [[Very Easy Rodent-Oriented Netwide Index to Computerized Archives|Veronica]] (''Very Easy Rodent-Oriented Net-wide Index to Computerized Archives'') komplett durchsucht werden. Allerdings verschwand Gopher schon einige Jahre später, vermutlich vor allem wegen der fehlenden Möglichkeit, Bilder und Grafiken einzubinden. |
|||
Unsichtbar mitgegebene Informationen (Ortsangaben, und andere Informationen, im Fall von Anfragen aus dem Mobilfunknetz) oder erschlossene 'Bedeutungsvorlieben' aus der gespeicherten Suchhistorie des Benutzers sind weitere Beispiele für nicht explizit in den eingegebenen Suchbegriffen vorgegebene, von etlichen Suchmaschinen zur Modifikation und Verbesserung der Ergebnisse verwendete Informationen. |
|||
Mit der Freigabe des [[World Wide Web|WWW-Standards]] zur kostenlosen Nutzung 1993 und einer handvoll Webseiten begann die einzigartige Erfolgsgeschichte des weltweiten Datennetzes. Der erste [[Webcrawler]] namens ''The Wanderer'' wurde im selben Jahr von Mathew Gray programmiert, einem Studenten des [[Massachusetts Institute of Technology]] (MIT). The Wanderer durchsuchte und katalogisierte von 1993 bis 1996 halbjährlich das zu dieser Zeit noch sehr übersichtliche Web. Im Juni 1993 wurden insgesamt 130 Websites gezählt. Im Oktober des gleichen Jahres wurde ''Aliweb'' (''Archie-Like Indexing of the Web'') entwickelt, bei dem die Betreiber von Webservern eine Beschreibung ihres Dienstes in einer Datei ablegen mussten, um so ein Teil des durchsuchbaren Index zu werden. |
|||
Es gibt daneben auch Suchmaschinen, die nur mit streng formalisierten [[Abfragesprache]]n abgefragt werden können, dadurch in der Regel jedoch auch sehr komplexe Anfragen sehr präzise beantworten können. |
|||
Im Dezember 1993 gingen die Suchmaschinen ''Jumpstation'', ''WorldWideWeb Worm'' und ''RBSE Spider'' ans Netz. Die beiden erstgenannten waren Crawler, die Webseiten nach Titel und [[URL]] indexierten. RBSE Spider war die erste Suchmaschine, die ihre Ergebnisse nach einem eigenen [[Ranking]]-System sortiert anzeigte. Keine dieser Suchmaschinen bietet heute noch ihre Dienste an. |
|||
Eine bislang noch nur ansatzweise oder auf beschränkte Informationsgrundlagen realisierbare Fähigkeit von Suchmaschinen ist die Fähigkeit zur Bearbeitung natürlichsprachiger sowie unscharfer Suchanfragen (Siehe auch: [[semantisches Web]]). |
|||
== Probleme == |
|||
=== Mehrdeutigkeit === |
|||
Suchanfragen sind oft unpräzise. So kann die Suchmaschine nicht selbstständig entscheiden, ob beim Begriff ''Laster'' nach einem [[Lastkraftwagen|Lkw]] oder einer schlechten Angewohnheit gesucht werden soll ([[Semantik|semantische]] Korrektheit). Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch [[Synonymie|Synonyme]] einbeziehen, damit der Suchbegriff ''Rechner Linux'' auch Seiten findet, die statt ''Rechner'' das Wort ''Computer'' enthalten. |
|||
=== Grammatik === |
|||
Viele mögliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten [[grammatik]]alischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff ''Auto'' zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff ''Autos''. Manche Suchmaschinen erlauben die Suche mittels [[Wildcard (Informatik)|Wildcards]], mit denen sich dieses Problem teilweise umgehen lässt (z. B. berücksichtigt die Suchanfrage ''Auto*'' auch den Begriff ''Autos'' oder ''Automatismus''), allerdings muss der Nutzer die Möglichkeit auch kennen. Weiterhin wird oft [[Stemming]] verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (''schöne Blumen'' findet so auch ''schöner Blume''), außerdem wird die Anzahl der Begriffe im Index reduziert. Die Nachteile des Stemmings können durch eine [[linguistische Suche]] ausgeglichen werden, indem alle Wortvarianten erzeugt werden. Eine weitere Möglichkeit ist der Einsatz [[Statistik|statistischer Verfahren]], mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach ''Auto reparieren'' auch die Suche nach ''Autos reparatur'' oder ''Automatismus repariert'' gemeint gewesen sein könnte. |
|||
=== Satzzeichen === |
|||
Fachbegriffe und Produktbezeichnungen, zu deren Eigennamen ein Satzzeichen gehört (z. B. Apples Webservice .Mac oder C/net), können bei den gängigen Suchmaschinen nicht effektiv gesucht und gefunden werden. Lediglich für ein paar sehr häufige Begriffe (z. B. .Net, C#, oder C++) wurden Ausnahmen geschaffen.<ref>[https://support.google.com/websearch/answer/134479?hl=de Google-Suchhilfen]</ref> |
|||
=== Datenmenge === |
|||
Die Datenmengen wachsen oft sehr schnell. Mit Datenmengen, welche beispielsweise zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten, beschäftigt sich [[Big Data]]. |
|||
=== Aktualität === |
|||
Viele Dokumente werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder neu zu indexieren. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. |
|||
=== Technik === |
|||
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die [[Antwortzeit]]en niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr [[Redundanz (Technik)|redundant]] ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet. |
|||
== Websuchmaschinen == |
|||
Websuchmaschinen haben ihren Ursprung in [[Information Retrieval|Information-Retrieval]]-Systemen. Die ''Datenbeschaffung'' erfolgt durch den Webcrawler der jeweiligen Suchmaschine wie bspw. [[Googlebot]]. Etwa ein Drittel aller Suchanfragen im Internet bezieht sich (Stand 2009) auf Personen und deren Aktivitäten.<ref>[https://www.stern.de/digital/online/personen-suchmaschinen-die-spuren-der-anderen-im-internet-3561138.html ''Personen-Suchmaschinen: Die Spuren der Anderen im Internet''.] In: ''[[Stern (Zeitschrift)|Stern]] digital''</ref> Zu den ersten Suchmaschinen, mit der man eine Volltextrecherche nach relevanten Seiten im Internet durchführen konnte, zählten Anfang 1994 [[WebCrawler]] und Ende 1995 [[AltaVista]]. |
|||
=== Suchverhalten === |
|||
Suchanfragen lassen sich auf verschiedene Art kategorisieren.<ref>{{Literatur |Autor=Lewandowski, Dirk, |Hrsg= |Titel=Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen |Auflage= |Verlag=Logos-Verl |Ort=Berlin |Datum=2008 |ISBN=978-3-8325-1907-0 |Seiten=57}}</ref><ref>Andrei Broder: ''A taxonomy of web search.'' In: ''ACM SIGIR Forum.'' Bd. 36, Nr. 2, 2002, {{ISSN|0163-5840}}, S. 3–10, [[doi:10.1145/792550.792552]].</ref> Im Online-Marketing und in der [[Suchmaschinenoptimierung]] ([[Suchmaschinenmarketing]]) spielt diese Einteilung eine Rolle<ref>{{Internetquelle |url=https://www.textbroker.de/arten-von-suchanfragen-transactional-navigational-informational |titel=Arten von Suchanfragen (transaktionale/navigationale/informationale) {{!}} Content Marketing Glossar |werk=textbroker.de |sprache=de-DE |abruf=2019-07-01}}</ref><ref>{{Literatur |Autor=Vanessa Fox |Hrsg= |Titel=Marketing in the Age of Google |Auflage= |Verlag=John Wiley & Sons |Ort= |Datum=2012 |ISBN= |Seiten=67-68}}</ref>. |
|||
; Navigationsorientierte Suchanfragen |
|||
: Der Nutzer sucht bei navigationalen Anfragen gezielt nach Seiten, die er bereits kennt, oder von denen er glaubt, sie existieren. Das Informationsbedürfnis des Nutzers ist nach dem Auffinden der Seite befriedigt. |
|||
; Informationsorientierte Suchanfragen |
|||
: Der Nutzer sucht bei informationalen Anfragen eine Vielzahl von Angaben zu einem bestimmten Themengebiet. Mit Erhalt der Information ist die Suche beendet. Ein weiteres Arbeiten mit den benutzten Seiten bleibt meist aus. |
|||
; Transaktionsorientierte Suchanfragen (bzw. kommerzielle Suchanfragen) |
|||
: Der Nutzer sucht bei transaktionalen Anfragen nach Internetseiten, mit denen er zu arbeiten gedenkt. Dies sind zum Beispiel Internetshops, Chats usw. |
|||
;Suchanfrage vor einem Kauf |
|||
: Der Nutzer sucht beispielsweise gezielt nach Testberichten oder Reviews zu bestimmten Produkten, ist aber noch nicht auf der Suche nach konkreten Angeboten zu einem Produkt. |
|||
; Aktionsorientierte Suchanfragen |
|||
: Der Nutzer signalisiert durch seine Suchanfrage, dass er etwas tun möchte (etwas herunterladen oder ein Video ansehen). |
|||
=== Darstellung der Ergebnisse === |
|||
Die Seite, auf der die Suchergebnisse dem Benutzer ausgegeben werden (manchmal auch als ''Search engine results page'', kurz: SERP, bezeichnet), gliedert sich (häufig auch räumlich) bei vielen Websuchmaschinen in die [[Natural Listings]] und die [[Sponsorenlink]]s. Während letztere ausschließlich gegen Bezahlung in den Suchindex aufgenommen werden, sind in ersteren alle dem Suchwort entsprechenden Webseiten aufgelistet. Einige Anbieter zeigen dem Nutzer, neben den eigentlichen Suchergebnissen, weitere zur Suche passende Schlagwörter an. |
|||
Um dem Anwender die Benutzung der Websuchmaschinen zu erleichtern, werden Ergebnisse nach Relevanz (''Hauptartikel: [[Suchmaschinenranking]]'') sortiert, wofür jede Suchmaschine ihre eigenen, meistens geheim gehaltenen Kriterien heranzieht. Dazu gehören: |
|||
* Die grundlegende Bedeutung eines Dokuments, gemessen durch die Linkstruktur, der Qualität der verweisenden Dokumente sowie in Verweisen enthaltener Text. |
|||
* Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument. |
|||
* Umfang und Qualität des Dokuments. |
|||
* Einstufung und Anzahl der zitierten Dokumente. |
|||
Siehe auch: [[Verordnung (EU) 2019/1150 (Fairness und Transparenz)|Verordnung zur Förderung von Fairness und Transparenz]] von Online-Vermittlungsdiensten und Online-Suchmaschinen der [[Europäische Union|Europäischen Union]]. |
|||
=== Probleme === |
|||
Im April 1994 ging eine weitere Suchmaschine namens WebCrawler online, die ebenfalls eine nach Ranking sortierte Trefferliste vorweisen konnte. 1995 wurde sie an [[AOL]] verkauft, ein Jahr später weiter an [[Excite]]. Im Mai begann die Arbeit von Michael Mauldins an der Suchmaschine [[Lycos]], die im Juli 1994 online ging. Neben der Worthäufigkeit der Suchbegriffe innerhalb der Webseiten durchsuchte Lycos auch die Nähe der Suchbegriffe untereinander im Dokument. |
|||
==== Recht ==== |
|||
Websuchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. So zeigen die marktführenden Websuchmaschinen seit 2006 bei aus Deutschland stammenden Suchanfragen keine Webseiten mehr als Treffer an, die von der [[Bundesprüfstelle für jugendgefährdende Medien]] als [[jugendgefährdend]] eingestuft wurden. Diese Praxis erfolgt von Seiten der Suchmaschinen freiwillig als automatisiertes Verfahren (Filtermodul) im Rahmen des Vereins [[Freiwillige Selbstkontrolle Multimedia-Diensteanbieter]]. |
|||
==== Aktualität ==== |
|||
Im selben Jahr riefen [[David Filo]] und [[Jerry Yang]], beide damals Studenten des Fachbereichs Elektrotechnik an der [[Stanford University]], eine Sammlung ihrer besten Web-Adressen in einem online verfügbaren Verzeichnisdienst ins Leben – die Geburtsstunde von [[Yahoo!]] (für ''Yet Another Hierarchical Officious Oracle''). |
|||
Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen ([[Datenverkehr|Traffic]]) des Suchmaschinenbetreibers. |
|||
==== Spam ==== |
|||
Das Jahr 1995 sollte eine bedeutende Trendwende für die erst kurze Geschichte der Suchmaschinen werden: In diesem Jahr wurden erstmals Suchmaschinen von kommerziellen Firmen entwickelt. Aus diesen Entwicklungen entstanden [[Infoseek]], Architext (wurde später in Excite umbenannt) und [[AltaVista]]. Ein Jahr später wurde [[Inktomi]] Corp. gegründet, deren gleichnamige Suchmaschine zur Grundlage von [[Hotbot]] und anderen Suchseiten wurde. Führend in dieser Zeit war der Verzeichnisdienst von Yahoo, aber AltaVista (der Name bedeutet „Blick von oben“, ist aber auch ein Wortspiel den Standort [[Palo Alto]] betreffend) wurde zunehmend populär. |
|||
Mittels [[Suchmaschinen-Spamming]] versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden. |
|||
==== Datenschutz ==== |
|||
1996 war das Startjahr von zwei [[Metasuchmaschine]]n. [[MetaCrawler]] erblickte in den USA das Licht der Welt und - in Deutschland - [[MetaGer]]. Bis zur Marktdurchdringung von Google galten Metasuchmaschinen als eine der interessantesten Informationsbeschaffer, da der Suchindex der Suchmaschinen meist nur Teilbereiche des Internets enthielt. Metasuchmaschinen leiten die Abfragen des Nutzers parallel an mehrere Suchmaschinen weiter und fassen die Treffer formatiert zusammen. |
|||
Vor allem bei [[Personensuchmaschine]]n ist Datenschutz ein heikles Thema. Wenn über eine Personensuchmaschine eine Suche nach einem Namen gestartet wird, betreffen die Ergebnisse der Suche nur Daten, die allgemein zugänglich sind. Diese Daten sind auch ohne die Suchmaschine für die Allgemeinheit ohne Vornahme einer Registrierung bei einem Dienst oder Ähnlichem zugänglich. Die Personensuchmaschine selbst hält keine eigenen Informationen vor, sondern vermittelt nur den Zugang zu diesen. Korrekturen oder Löschungen müssen an der jeweiligen Ursprungsquelle vorgenommen werden.<ref>[https://www.basicthinking.de/blog/2007/10/29/yasni-personensuchmaschine-am-start/ ''Yasni: Personensuchmaschine am Start''] basicthinking.de, 29. Oktober 2007</ref> Weitere rechtliche Fragen ergeben sich bzgl. der Anzeige von Daten durch die [[Autovervollständigung]]. Besonders die Suchmaschine [[DuckDuckGo]] wird im Zusammenhang mit restriktivem Tracking oft erwähnt. Im Gegensatz zu Google und anderen großen Suchmaschinen werden keine personenbezogenen Daten gespeichert, die für Werbemaßnahmen genutzt werden können. Im August 2022 wurde zudem bekannt, dass seither jegliche Tracking-Skripte von Microsoft blockiert werden. Damit reagieren die Macher von DuckDuckGo auf Kritik, die im Rahmen einer Untersuchung des Sicherheitsforschers Zach Edwards zutage kam (demnach konnte Microsoft sämtliche Nutzeraktivitäten webseitenübergreifend tracken).<ref>{{Internetquelle |url=https://www.derstandard.de/story/2000136091385/aufregung-um-duck-duck-go-der-anti-tracking-browser-laesst |titel=Aufregung um Duck Duck Go: Der Anti-Tracking-Browser lässt Tracking durch Microsoft zu |sprache=de-AT |abruf=2022-08-08}}</ref> |
|||
==== Umweltschutz ==== |
|||
Ende 1998 veröffentlichten [[Larry Page]] und [[Sergey Brin]] ihre innovative Suchmaschinen-Technologie in dem Artikel ''The Anatomy of a Large-Scale Hypertextual Web Search Engine''. Diese Arbeit stellte den Startschuss für die bisher erfolgreichste Suchmaschine der Welt dar: [[Google]]. Im September 1999 erreichte Google Beta-Status. Die geordnete Benutzeroberfläche, die Geschwindigkeit und die Relevanz der Suchergebnisse bildeten die Eckpfeiler auf dem Weg, die computererfahrenen Nutzer für sich zu gewinnen. Ihnen folgten in den nächsten Jahren bis heute Scharen von neuen Internetbenutzern. Doch Google dominiert den Suchmaschinenmarkt nicht allein, durch spektakuläre Aufkäufe im Frühjahr 2003 sicherte sich Yahoo! den Anschluss in diesem Marktsegment. |
|||
Jede Suchanfrage verbraucht Energie. Demnach verursachen beispielsweise 50 Google-Suchanfragen laut einer Rechnung des [[Öko-Institut]]s jährliche Treibhausgasemissionen von 26 Kilogramm.<ref>{{Internetquelle |autor=Bettina Ullrich |url=https://www.sonntagsblatt.de/alternativen-google-suchmaschinen-alternativen-diese-suchmaschinen-ecosia-gexsi-duckduckgo-startpage |titel=Google-Alternativen: Diese Suchmaschinen bieten Datenschutz – und Klimaschutz {{!}} Sonntagsblatt - 360 Grad evangelisch |sprache=de |abruf=2022-08-08}}</ref> Da jede Suchanfrage (Server-)Strom verbraucht, gibt es Anbieter (sogenannte „[[grüne Suchmaschine]]n“), die auf CO<sub>2</sub>-ausgleichende oder -sparende Maßnahmen setzen (z. B. Bäume pflanzen, den Regenwald wiederaufforsten). Bekannte Vertreter sind z. B. [[Ecosia]], Gexsi, Ekoru und Lilo. |
|||
=== Marktanteile === |
|||
Seit [[2004]] gibt es nach einigen Firmenübernahmen nur mehr drei große (bezogen auf die Anzahl erfasster Dokumente) indexbasierte kommerzielle Websuchmaschinen. Neben Google sind dies [[Yahoo!]] Search und [[Microsoft]]s ''[[Microsoft Network|MSN]] Search''. |
|||
==== Deutschland ==== |
|||
{| class="wikitable sortable" |
|||
!Name!! style="text-align:left; width:350px;" |Anteil der Suchanfragen '''in Deutschland''' im Mai 2023<ref>{{Internetquelle |url=https://gs.statcounter.com/search-engine-market-share/all/germany |titel=Search Engine Market Share Germany |hrsg=Statcounter |sprache=en |abruf=2023-06-15}}</ref>!!Prozent |
|||
|- |
|||
|[[Google Suche|Google]]||{{Prozentbalken |stroke=transparent |quote=90.56}} |
|||
|90,56 % |
|||
|- |
|||
|[[Bing (Suchmaschine)|Bing]]||{{Prozentbalken |stroke=transparent |quote=5.03}} |
|||
|5,03 % |
|||
|- |
|||
|[[Altaba|Yahoo!]] (verwendet Bing)<ref name=":0">{{Internetquelle |url=https://www.golem.de/sonstiges/zustimmung/auswahl.html?from=https%3A%2F%2Fwww.golem.de%2F0907%2F68676.html |titel=Golem.de: IT-News für Profis |abruf=2021-03-21}}</ref>||{{Prozentbalken |stroke=transparent1.09 |quote=1.09}} |
|||
|1,09 % |
|||
|- |
|||
|[[DuckDuckGo]] ||{{Prozentbalken |stroke=transparent |quote=1.07}} |
|||
|1,07 % |
|||
|- |
|||
|[[Yandex]]||{{Prozentbalken |stroke=transparent |quote=0.92}} |
|||
|0,92 % |
|||
|- |
|||
|[[Ecosia]] (verwendet Bing und Google)<ref>{{Internetquelle |url=https://ecosia.helpscoutdocs.com/article/579-search-results-providers#How-are-search-results-ranked-mTvGm |titel=Results on Ecosia Search - Ecosia Help Center |abruf=2024-12-26}}</ref>||{{Prozentbalken |stroke=transparent |quote=0.75}} |
|||
|0,75 % |
|||
|- |
|||
|Sonstige (z. B. [[T-Online]], [[Egerin]])||{{Prozentbalken |stroke=transparent |quote=0.58}} |
|||
|0,58 % |
|||
|} |
|||
== |
==== Weltweit ==== |
||
{| class="wikitable sortable" |
|||
* '''Mehrdeutigkeit''' – Suchanfragen sind oft unpräzise. So kann die Suchmaschine nicht selbständig entscheiden, ob beim Begriff ''Laster'' nach einem [[LKW]] oder einer schlechten Angewohnheit gesucht werden soll. Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch [[Synonym]]e einbeziehen, damit der Suchbegriff ''Rechner Linux'' auch Seiten findet, die statt ''Rechner'' das Wort ''Computer'' enthalten. Weiterhin wird oft [[Stemming]] verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (''schöne Blumen'' findet so auch ''schöner Blume''), außerdem wird die Anzahl der Begriffe im Index reduziert. |
|||
! Name !! style="text-align:left; width:350px;" |Anteil der Suchanfragen '''weltweit''' im Mai 2023<ref>{{Internetquelle |url=https://gs.statcounter.com/search-engine-market-share |titel=Search Engine Market Share Worldwide |hrsg=Statcounter |sprache=en |abruf=2023-06-15}}</ref>!!Prozent |
|||
* '''Datenmenge''' – Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das sogenannte [[Deep Web]] – noch gar nicht eingerechnet. |
|||
|- |
|||
* '''Aktualität''' – Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten immer wieder zu besuchen. Dies ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen ([[Datenverkehr|Traffic]]) des Suchmaschinenbetreibers. |
|||
| [[Google Suche|Google]] || style="text-align:right;"|{{Prozentbalken |stroke=transparent |quote=93.12}} |
|||
* '''Spam''' – Mittels [[Suchmaschinen-Spamming]] versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dies, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden. |
|||
| 93,12 % |
|||
* '''Technisches''' – Suche auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die [[Antwortzeit]]en niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr [[redundant]] ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalität anbietet. |
|||
|- |
|||
* '''Rechtliches''' – Suchmaschinen werden meist international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die [[Freiwillige Selbstkontrolle]] aus ihren Trefferlisten streichen. |
|||
| [[Bing (Suchmaschine)|Bing]] || style="text-align:right;"|{{Prozentbalken |stroke=transparent |quote=2.77}} |
|||
| 2,77 % |
|||
|- |
|||
| [[Yandex]]|| style="text-align:right;" |{{Prozentbalken |stroke=transparent |quote=1.15}} |
|||
| 1,15 % |
|||
|- |
|||
| [[Altaba|Yahoo!]] (verwendet Bing)<ref name=":0" />|| style="text-align:right;" |{{Prozentbalken |stroke=transparent |quote=1.11}} |
|||
| 1,11 % |
|||
|- |
|||
| [[DuckDuckGo]]|| style="text-align:right;" |{{Prozentbalken |stroke=transparent |quote=0.51}} |
|||
| 0,51 % |
|||
|- |
|||
| [[Baidu]]|| style="text-align:right;" |{{Prozentbalken |stroke=transparent |quote=0.49}} |
|||
| 0,49 % |
|||
|- |
|||
| Sonstige (z. B. [[Naver]], [[Ecosia]], [[Qwant]])||{{Prozentbalken |stroke=transparent |quote=0.85}} |
|||
| 0,85 % |
|||
|} |
|||
== Siehe auch == |
== Siehe auch == |
||
* [[Liste von Websuchmaschinen]] |
|||
* [[Hubs und Authorities]], [[Google-Bombe]], [[Linkfarm]], [[Web Impact Faktor]], [[Information-Retrieval]], [[Vektorraum-Retrieval]], [[Data Mining]], [[semantisches Web]], [[Open Archives Initiative]], [[Web Mining]], [[Schnitzelmitkartoffelsalat]], [[Nutch]], [[Objektivität]], [[Suchmaschinen-Optimierung]] |
|||
== Literatur == |
== Literatur == |
||
* David Gugerli: ''Suchmaschinen. Die Welt als Datenbank'' (= ''Edition Unseld.'' Bd. 19). Suhrkamp, Frankfurt am Main 2009, ISBN 978-3-518-26019-7. |
|||
* Stefan Karzauninkat: ''Die Suchfibel Wie findet man Informationen im Internet?'' Klett, [[2002]] 3. Aufl. ISBN 3-12-238106-0 |
|||
* Nadine Höchstötter, Dirk Lewandowski: ''What the users see – Structures in search engine results pages.'' In: ''Information Sciences'' Bd. 179, Nr. 12, 2009, {{ISSN|0020-0255}}, S. 1796–1812, [[doi:10.1016/j.ins.2009.01.028]]. |
|||
* Heike Faller: ''[http://www.zeit.de/2005/41/Suchmaschinen_2?page=all David gegen Google]''. In: [[Die Zeit]] Nr. 41/2005, [[6. Oktober]] [[2005]], S. 17ff (Dossier). |
|||
* Konrad Becker, [[Felix Stalder]] (Hrsg.): ''Deep search: Politik des Suchens jenseits von Google.'' Innsbruck Wien Bozen: StudienVerlag 2009. ISBN 978-3-7065-4794-9. |
|||
* Dirk Lewandowski: "Web Information Retrieval: Technologien zur Suche im Internet" DGI, [[2005]] ISBN 3-925474-55-2. [http://www.durchdenken.de/lewandowski/web-ir Online-Version des Buchs]" |
|||
* Dirk Lewandowski: ''[https://searchstudies.org/suchmaschinen/ Suchmaschinen].'' In: Rainer Kuhlen, Wolfgang Semar, [[Dietmar Strauch]] (Hrsg.): ''Grundlagen der praktischen Information und Dokumentation.'' 6. Ausgabe. Walter de Gruyter, Berlin 2013, ISBN 978-3-11-025826-4. |
|||
* Dirk Lewandowski: ''Suchmaschinen verstehen''. 2. Auflage. Springer, Heidelberg 2018, ISBN 978-3-662-56410-3. |
|||
* Dirk Lewandowski (Hrsg.): ''Handbuch Internet-Suchmaschinen.'' 3 Bände. AKA, Akademische Verlags-Gesellschaft, Heidelberg 2009–2013; |
|||
** Band 1: Dirk Lewandowski: ''Nutzerorientierung in Wissenschaft und Praxis.'' 2009, ISBN 978-3-89838-607-4; |
|||
** Band 2: Dirk Lewandowski: ''Neue Entwicklungen in der Web-Suche.'' 2011, ISBN 978-3-89838-651-7. |
|||
** Band 3: Dirk Lewandowski: ''Suchmaschinen zwischen Technik und Gesellschaft.'' 2013, ISBN 978-3-89838-680-7. |
|||
* Sven Konstantin: ''[https://searchstudies.org/poster-auf-den-spuren-der-suche/ Poster „Auf den Spuren der Suche – die Geschichte der Suchmaschinen“]''. In: Search Studies. 23. April 2018. |
|||
* {{Internetquelle |
|||
|url=https://www.test.de/Suchmaschinen-im-Test-Eine-schlaegt-Google-5453360-0/ |
|||
|titel=Suchmaschinen im Test: Eine schlägt Google |
|||
|werk=www.test.de |
|||
|hrsg= [[test (Zeitschrift)]] |
|||
|datum=2019-03-26 |
|||
|abruf=2021-08-12 |
|||
|abruf-verborgen=1}} |
|||
== Weblinks == |
== Weblinks == |
||
{{Commonscat|Search engines|Suchmaschine}} |
|||
<!-- Vorschläge für neue Weblinks bitte auf der Diskussionsseite eintragen. Insbesondere keine Links zu bestimmten Suchmaschinen eintragen - in diesen Abschnitt sollen etwa fünf Links zum Thema Suchmaschine, keine spezifischen Suchmaschinen. --> |
|||
<!-- Vorschläge für neue Weblinks bitte auf der Diskussionsseite eintragen. Insbesondere keine Links zu bestimmten Suchmaschinen eintragen – in diesen Abschnitt sollen etwa fünf Links zum Thema Suchmaschine, keine spezifischen Suchmaschinen. --> |
|||
* http://www.suchfibel.de/ Die Suchfibel - Alles über die Websuche |
|||
* [https://www.test.de/Datenschutz-in-einer-Minute-So-wechseln-Sie-Ihre-Standard-Suchmaschine-5917324-0/ So wechseln Sie Ihre Standard-Suchmaschine] Stiftung Warentest |
|||
* http://www.ososo.de/suchmaschinen-faq/ [[FAQ]] der [[Newsgroup]] de.comm.infosystems.suchmaschinen - Grundlagen zur Funktionsweise und zur Benutzung von Suchmaschinen |
|||
* |
* {{dmoz|World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/|Liste von Suchmaschinen}} |
||
* [https://www.bpb.de/gesellschaft/digitales/politik-des-suchens/ Dossier: Die Politik des Suchens] bei der [[Bundeszentrale für politische Bildung|bpb]] |
|||
* http://www.rechercheportal.de Zugriff auf rund 2000 spezialisierte Suchdienste |
|||
*{{dmoz|World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/|Liste von Suchmaschinen}} |
|||
* http://www.at-web.de Nachrichten zum Thema Suchmaschinen |
|||
* http://www.suchfibel.de/5technik/images/suchmaschinereien_gross.gif Beziehung der Suchmaschinen zueinander |
|||
== Einzelnachweise == |
|||
[[Kategorie:Dokumentation]] |
|||
<references /> |
|||
[[Kategorie:Internet]] |
|||
[[Kategorie:Suchmaschine]] |
|||
{{Normdaten|TYP=s|GND=4423007-2}} |
|||
{{WikiReader_Internet}} |
|||
[[Kategorie:Suchmaschine| ]] |
|||
[[ar:محرك بحث]] |
|||
[[Kategorie:World Wide Web| ]] |
|||
[[da:Søgemaskine]] |
|||
[[en:Search engine]] |
|||
[[eo:Serĉilo]] |
|||
[[es:Buscador]] |
|||
[[fa:موتورهای جستجو]] |
|||
[[fi:Hakukone]] |
|||
[[fr:Moteur de recherche]] |
|||
[[he:מנוע חיפוש]] |
|||
[[hu:Keresőmotor]] |
|||
[[ia:Mechanismo de recerca]] |
|||
[[id:Mesin pencari]] |
|||
[[it:Motore di ricerca]] |
|||
[[ja:検索エンジン]] |
|||
[[ko:검색 엔진]] |
|||
[[ms:Enjin gelintar]] |
|||
[[nl:Zoekmachine]] |
|||
[[pl:Wyszukiwarka internetowa]] |
|||
[[pt:Motor de busca]] |
|||
[[ru:Поисковая система]] |
|||
[[simple:Search engine]] |
|||
[[sv:Sökmaskiner]] |
|||
[[th:เครื่องมือค้นหาบนอินเทอร์เน็ต]] |
|||
[[uk:Пошукова машина]] |
|||
[[vi:Máy truy tìm dữ liệu]] |
|||
[[zh:搜索引擎]] |
Aktuelle Version vom 8. Mai 2025, 10:17 Uhr
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Nach Erstellung einer Suchanfrage, oftmals durch Texteingabe eines Suchbegriffs, liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei werden verschiedene Suchverfahren verwendet.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind:
- Erstellung und Pflege eines Index (Datenstruktur mit Informationen über Dokumente),
- Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
- Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im Internet durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.
Merkmale
[Bearbeiten | Quelltext bearbeiten]Suchmaschinen sind Metamedien, die gezielt Inhalte anderer Medien auffinden und abgreifen. Sie lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der Merkmalsgruppen entscheiden, ohne dass diese die Wahl der anderen Merkmale beeinflusst.
Art der Daten
[Bearbeiten | Quelltext bearbeiten]Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält (häufig Snippet genannt). Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an. Eine Personensuchmaschine findet öffentlich verfügbare Informationen zu Namen und Personen, die als Linkliste dargestellt werden. Weitere spezialisierte Arten von Suchmaschinen sind zum Beispiel Jobsuchmaschinen, Branchensuchen oder Produktsuchmaschinen. Letztere werden vorrangig von Online-Preisvergleichen eingesetzt, es gibt aber auch schon lokale Angebotssuchen, die Produkte und Angebote stationärer Einzelhändler online darstellen.
Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Webseiten im HTML-Format nach dem Dokumententitel.
Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die das Suchergebnis beispielsweise mit bestimmten Booleschen Ausdrücken (UND, ODER, NICHT), nach einer bestimmten Sprache, einem bestimmten Land, einem bestimmten Zeitraum, einem bestimmten Dateiformat etc. aus den erfassten Daten herausfiltert. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat.
Datenquelle
[Bearbeiten | Quelltext bearbeiten]Ein anderes Merkmal zur Kategorisierung ist die Quelle, aus der die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle.
- Websuchmaschinen erfassen Dokumente aus dem World Wide Web,
- vertikale Suchmaschinen betrachten einen ausgewählten Bereich des World Wide Web und erfassen nur Webdokumente zu einem bestimmten Thema wie Fußball, Gesundheit oder Recht.
- Usenetsuchmaschinen Beiträge aus dem weltweit verteilten Diskussionsmedium Usenet.
- Intranetsuchmaschinen beschränken sich auf die Rechner des Intranets einer Firma.
- Enterprise Search Suchmaschinen ermöglichen eine zentrale Suche über verschiedene Datenquellen innerhalb eines Unternehmens, wie z. B. Fileserver, Wikis, Datenbanken und Intranet.
- Als Desktop-Suchmaschinen werden Programme bezeichnet, die den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.[1]
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, spricht man von einem Katalog oder Verzeichnis. In solchen Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.
Realisierung
[Bearbeiten | Quelltext bearbeiten]Dieser Abschnitt beschreibt Unterschiede in der Realisierung des Betriebs der Suchmaschine.
- Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine Datenstruktur, die bei einer späteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Index, Vorteil ist die Beschleunigung des Suchvorgangs. Häufigste Ausprägung dieser Struktur ist ein Invertierter Index. Grundlegende Vorarbeiten für die Entwicklung leistete die Informatikerin Karen Spärck Jones, die statistische und linguistische Verfahren kombinierte.[2]
- Metasuchmaschinen senden Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergeben sich die größere Datenmenge sowie die einfachere Implementierung, da kein Index vorgehalten werden muss. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung von fragwürdigem Wert. Die Qualität der Ergebnisse wird unter Umständen auf die Qualität der schlechtesten befragten Suchmaschine reduziert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll.
- Weiterhin existieren Hybridformen. Diese besitzen einen eigenen, oft relativ kleinen Index, befragen aber auch andere Suchmaschinen und kombinieren schließlich die Einzelergebnisse. Sogenannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
- Ein relativ neuer Ansatz sind Verteilte Suchmaschinen bzw. Föderierte Suchmaschinen. Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengeführt. Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und – je nach Sichtweise – die fehlende Möglichkeit, zentral zu zensieren. Schwierig zu lösen ist allerdings das Ranking, also die Sortierung der grundsätzlich passenden Dokumente nach ihrer Relevanz für die Anfrage.
- Eine besondere Art der Verteilten Suchmaschinen sind die auf dem Peer-to-Peer-Prinzip basierenden, die einen verteilten Index aufbauen. Auf jedem dieser Peers können unabhängige Crawler zensurresistent die Teile des Web erfassen, welche der jeweilige Peer-Betreiber durch einfache lokale Konfiguration definiert. Bekanntestes System ist, neben einigen vorwiegend akademischen Projekten (z. B. Minerva), die unter GNU-GPL freie Software YaCy.
Interpretation der Eingabe
[Bearbeiten | Quelltext bearbeiten]Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Suchalgorithmus verständliche Form gebracht. Dies dient dazu, die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren und die exakte Suche nach ein oder mehreren Worten in Anführungszeichen.[3] Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht.
Eine neuere Entwicklung ist die Fähigkeit von etlichen Suchmaschinen, implizit vorhandene Informationen aus dem Zusammenhang der Suchanfrage selbst zu erschließen und zusätzlich auszuwerten. Die bei unvollständigen Suchanfragen typischerweise vorhandenen Mehrdeutigkeiten der Suchanfrage können so reduziert, und die Relevanz der Suchergebnisse (das heißt, die Übereinstimmung mit den bewussten oder unbewussten Erwartungen des/der Suchenden) erhöht werden. Aus den semantischen Gemeinsamkeiten der eingegebenen Suchbegriffe wird (siehe auch: Semantische Suche) auf eine, oder mehrere, hinterliegende Bedeutungen der Anfrage geschlossen. Die Ergebnismenge wird so um Treffer auf semantisch verwandte, in der Anfrage jedoch nicht explizit eingegebene Suchbegriffe, erweitert. Dies führt in der Regel nicht nur zu einer quantitativen, sondern, vor allem bei unvollständigen Anfragen und nicht optimal gewählten Suchbegriffen, auch zu einer qualitativen Verbesserung (der Relevanz) der Ergebnisse, weil die in diesen Fällen eher unscharf durch die Suchbegriffe abgebildeten Suchintentionen durch die von den Suchmaschinen verwendeten statistischen Verfahren in der Praxis erstaunlich gut wiedergegeben werden (Siehe auch: semantische Suchmaschine und Latent Semantic Indexing).
Unsichtbar mitgegebene Informationen (Ortsangaben, und andere Informationen, im Fall von Anfragen aus dem Mobilfunknetz) oder erschlossene 'Bedeutungsvorlieben' aus der gespeicherten Suchhistorie des Benutzers sind weitere Beispiele für nicht explizit in den eingegebenen Suchbegriffen vorgegebene, von etlichen Suchmaschinen zur Modifikation und Verbesserung der Ergebnisse verwendete Informationen.
Es gibt daneben auch Suchmaschinen, die nur mit streng formalisierten Abfragesprachen abgefragt werden können, dadurch in der Regel jedoch auch sehr komplexe Anfragen sehr präzise beantworten können.
Eine bislang noch nur ansatzweise oder auf beschränkte Informationsgrundlagen realisierbare Fähigkeit von Suchmaschinen ist die Fähigkeit zur Bearbeitung natürlichsprachiger sowie unscharfer Suchanfragen (Siehe auch: semantisches Web).
Probleme
[Bearbeiten | Quelltext bearbeiten]Mehrdeutigkeit
[Bearbeiten | Quelltext bearbeiten]Suchanfragen sind oft unpräzise. So kann die Suchmaschine nicht selbstständig entscheiden, ob beim Begriff Laster nach einem Lkw oder einer schlechten Angewohnheit gesucht werden soll (semantische Korrektheit). Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer enthalten.
Grammatik
[Bearbeiten | Quelltext bearbeiten]Viele mögliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen lässt (z. B. berücksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Möglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (schöne Blumen findet so auch schöner Blume), außerdem wird die Anzahl der Begriffe im Index reduziert. Die Nachteile des Stemmings können durch eine linguistische Suche ausgeglichen werden, indem alle Wortvarianten erzeugt werden. Eine weitere Möglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein könnte.
Satzzeichen
[Bearbeiten | Quelltext bearbeiten]Fachbegriffe und Produktbezeichnungen, zu deren Eigennamen ein Satzzeichen gehört (z. B. Apples Webservice .Mac oder C/net), können bei den gängigen Suchmaschinen nicht effektiv gesucht und gefunden werden. Lediglich für ein paar sehr häufige Begriffe (z. B. .Net, C#, oder C++) wurden Ausnahmen geschaffen.[4]
Datenmenge
[Bearbeiten | Quelltext bearbeiten]Die Datenmengen wachsen oft sehr schnell. Mit Datenmengen, welche beispielsweise zu groß, zu komplex, zu schnelllebig oder zu schwach strukturiert sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten, beschäftigt sich Big Data.
Aktualität
[Bearbeiten | Quelltext bearbeiten]Viele Dokumente werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder neu zu indexieren. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten.
Technik
[Bearbeiten | Quelltext bearbeiten]Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.
Websuchmaschinen
[Bearbeiten | Quelltext bearbeiten]Websuchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Die Datenbeschaffung erfolgt durch den Webcrawler der jeweiligen Suchmaschine wie bspw. Googlebot. Etwa ein Drittel aller Suchanfragen im Internet bezieht sich (Stand 2009) auf Personen und deren Aktivitäten.[5] Zu den ersten Suchmaschinen, mit der man eine Volltextrecherche nach relevanten Seiten im Internet durchführen konnte, zählten Anfang 1994 WebCrawler und Ende 1995 AltaVista.
Suchverhalten
[Bearbeiten | Quelltext bearbeiten]Suchanfragen lassen sich auf verschiedene Art kategorisieren.[6][7] Im Online-Marketing und in der Suchmaschinenoptimierung (Suchmaschinenmarketing) spielt diese Einteilung eine Rolle[8][9].
- Navigationsorientierte Suchanfragen
- Der Nutzer sucht bei navigationalen Anfragen gezielt nach Seiten, die er bereits kennt, oder von denen er glaubt, sie existieren. Das Informationsbedürfnis des Nutzers ist nach dem Auffinden der Seite befriedigt.
- Informationsorientierte Suchanfragen
- Der Nutzer sucht bei informationalen Anfragen eine Vielzahl von Angaben zu einem bestimmten Themengebiet. Mit Erhalt der Information ist die Suche beendet. Ein weiteres Arbeiten mit den benutzten Seiten bleibt meist aus.
- Transaktionsorientierte Suchanfragen (bzw. kommerzielle Suchanfragen)
- Der Nutzer sucht bei transaktionalen Anfragen nach Internetseiten, mit denen er zu arbeiten gedenkt. Dies sind zum Beispiel Internetshops, Chats usw.
- Suchanfrage vor einem Kauf
- Der Nutzer sucht beispielsweise gezielt nach Testberichten oder Reviews zu bestimmten Produkten, ist aber noch nicht auf der Suche nach konkreten Angeboten zu einem Produkt.
- Aktionsorientierte Suchanfragen
- Der Nutzer signalisiert durch seine Suchanfrage, dass er etwas tun möchte (etwas herunterladen oder ein Video ansehen).
Darstellung der Ergebnisse
[Bearbeiten | Quelltext bearbeiten]Die Seite, auf der die Suchergebnisse dem Benutzer ausgegeben werden (manchmal auch als Search engine results page, kurz: SERP, bezeichnet), gliedert sich (häufig auch räumlich) bei vielen Websuchmaschinen in die Natural Listings und die Sponsorenlinks. Während letztere ausschließlich gegen Bezahlung in den Suchindex aufgenommen werden, sind in ersteren alle dem Suchwort entsprechenden Webseiten aufgelistet. Einige Anbieter zeigen dem Nutzer, neben den eigentlichen Suchergebnissen, weitere zur Suche passende Schlagwörter an.
Um dem Anwender die Benutzung der Websuchmaschinen zu erleichtern, werden Ergebnisse nach Relevanz (Hauptartikel: Suchmaschinenranking) sortiert, wofür jede Suchmaschine ihre eigenen, meistens geheim gehaltenen Kriterien heranzieht. Dazu gehören:
- Die grundlegende Bedeutung eines Dokuments, gemessen durch die Linkstruktur, der Qualität der verweisenden Dokumente sowie in Verweisen enthaltener Text.
- Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument.
- Umfang und Qualität des Dokuments.
- Einstufung und Anzahl der zitierten Dokumente.
Siehe auch: Verordnung zur Förderung von Fairness und Transparenz von Online-Vermittlungsdiensten und Online-Suchmaschinen der Europäischen Union.
Probleme
[Bearbeiten | Quelltext bearbeiten]Recht
[Bearbeiten | Quelltext bearbeiten]Websuchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. So zeigen die marktführenden Websuchmaschinen seit 2006 bei aus Deutschland stammenden Suchanfragen keine Webseiten mehr als Treffer an, die von der Bundesprüfstelle für jugendgefährdende Medien als jugendgefährdend eingestuft wurden. Diese Praxis erfolgt von Seiten der Suchmaschinen freiwillig als automatisiertes Verfahren (Filtermodul) im Rahmen des Vereins Freiwillige Selbstkontrolle Multimedia-Diensteanbieter.
Aktualität
[Bearbeiten | Quelltext bearbeiten]Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers.
Spam
[Bearbeiten | Quelltext bearbeiten]Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
Datenschutz
[Bearbeiten | Quelltext bearbeiten]Vor allem bei Personensuchmaschinen ist Datenschutz ein heikles Thema. Wenn über eine Personensuchmaschine eine Suche nach einem Namen gestartet wird, betreffen die Ergebnisse der Suche nur Daten, die allgemein zugänglich sind. Diese Daten sind auch ohne die Suchmaschine für die Allgemeinheit ohne Vornahme einer Registrierung bei einem Dienst oder Ähnlichem zugänglich. Die Personensuchmaschine selbst hält keine eigenen Informationen vor, sondern vermittelt nur den Zugang zu diesen. Korrekturen oder Löschungen müssen an der jeweiligen Ursprungsquelle vorgenommen werden.[10] Weitere rechtliche Fragen ergeben sich bzgl. der Anzeige von Daten durch die Autovervollständigung. Besonders die Suchmaschine DuckDuckGo wird im Zusammenhang mit restriktivem Tracking oft erwähnt. Im Gegensatz zu Google und anderen großen Suchmaschinen werden keine personenbezogenen Daten gespeichert, die für Werbemaßnahmen genutzt werden können. Im August 2022 wurde zudem bekannt, dass seither jegliche Tracking-Skripte von Microsoft blockiert werden. Damit reagieren die Macher von DuckDuckGo auf Kritik, die im Rahmen einer Untersuchung des Sicherheitsforschers Zach Edwards zutage kam (demnach konnte Microsoft sämtliche Nutzeraktivitäten webseitenübergreifend tracken).[11]
Umweltschutz
[Bearbeiten | Quelltext bearbeiten]Jede Suchanfrage verbraucht Energie. Demnach verursachen beispielsweise 50 Google-Suchanfragen laut einer Rechnung des Öko-Instituts jährliche Treibhausgasemissionen von 26 Kilogramm.[12] Da jede Suchanfrage (Server-)Strom verbraucht, gibt es Anbieter (sogenannte „grüne Suchmaschinen“), die auf CO2-ausgleichende oder -sparende Maßnahmen setzen (z. B. Bäume pflanzen, den Regenwald wiederaufforsten). Bekannte Vertreter sind z. B. Ecosia, Gexsi, Ekoru und Lilo.
Marktanteile
[Bearbeiten | Quelltext bearbeiten]Deutschland
[Bearbeiten | Quelltext bearbeiten]Name | Anteil der Suchanfragen in Deutschland im Mai 2023[13] | Prozent | ||
---|---|---|---|---|
|
90,56 % | |||
Bing |
|
5,03 % | ||
Yahoo! (verwendet Bing)[14] |
|
1,09 % | ||
DuckDuckGo |
|
1,07 % | ||
Yandex |
|
0,92 % | ||
Ecosia (verwendet Bing und Google)[15] |
|
0,75 % | ||
Sonstige (z. B. T-Online, Egerin) |
|
0,58 % |
Weltweit
[Bearbeiten | Quelltext bearbeiten]Name | Anteil der Suchanfragen weltweit im Mai 2023[16] | Prozent | ||
---|---|---|---|---|
|
93,12 % | |||
Bing |
|
2,77 % | ||
Yandex |
|
1,15 % | ||
Yahoo! (verwendet Bing)[14] |
|
1,11 % | ||
DuckDuckGo |
|
0,51 % | ||
Baidu |
|
0,49 % | ||
Sonstige (z. B. Naver, Ecosia, Qwant) |
|
0,85 % |
Siehe auch
[Bearbeiten | Quelltext bearbeiten]Literatur
[Bearbeiten | Quelltext bearbeiten]- David Gugerli: Suchmaschinen. Die Welt als Datenbank (= Edition Unseld. Bd. 19). Suhrkamp, Frankfurt am Main 2009, ISBN 978-3-518-26019-7.
- Nadine Höchstötter, Dirk Lewandowski: What the users see – Structures in search engine results pages. In: Information Sciences Bd. 179, Nr. 12, 2009, ISSN 0020-0255, S. 1796–1812, doi:10.1016/j.ins.2009.01.028.
- Konrad Becker, Felix Stalder (Hrsg.): Deep search: Politik des Suchens jenseits von Google. Innsbruck Wien Bozen: StudienVerlag 2009. ISBN 978-3-7065-4794-9.
- Dirk Lewandowski: Suchmaschinen. In: Rainer Kuhlen, Wolfgang Semar, Dietmar Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. 6. Ausgabe. Walter de Gruyter, Berlin 2013, ISBN 978-3-11-025826-4.
- Dirk Lewandowski: Suchmaschinen verstehen. 2. Auflage. Springer, Heidelberg 2018, ISBN 978-3-662-56410-3.
- Dirk Lewandowski (Hrsg.): Handbuch Internet-Suchmaschinen. 3 Bände. AKA, Akademische Verlags-Gesellschaft, Heidelberg 2009–2013;
- Band 1: Dirk Lewandowski: Nutzerorientierung in Wissenschaft und Praxis. 2009, ISBN 978-3-89838-607-4;
- Band 2: Dirk Lewandowski: Neue Entwicklungen in der Web-Suche. 2011, ISBN 978-3-89838-651-7.
- Band 3: Dirk Lewandowski: Suchmaschinen zwischen Technik und Gesellschaft. 2013, ISBN 978-3-89838-680-7.
- Sven Konstantin: Poster „Auf den Spuren der Suche – die Geschichte der Suchmaschinen“. In: Search Studies. 23. April 2018.
- Suchmaschinen im Test: Eine schlägt Google. In: www.test.de. test (Zeitschrift), 26. März 2019 .
Weblinks
[Bearbeiten | Quelltext bearbeiten]- So wechseln Sie Ihre Standard-Suchmaschine Stiftung Warentest
- Linkkatalog zum Thema Liste von Suchmaschinen bei curlie.org (ehemals DMOZ)
- Dossier: Die Politik des Suchens bei der bpb
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Artur Hoffmann: Suchmaschinen für PCs. In: PC Professionell 2/2007, S. 108ff.
- ↑ Nellie Bowles: Overlooked No More: Karen Sparck Jones, Who Established the Basis for Search Engines (Published 2019). In: nytimes.com. 2. Januar 2019, abgerufen am 3. Februar 2024 (englisch).
- ↑ Websuchen optimieren. Abgerufen am 7. Januar 2021.
- ↑ Google-Suchhilfen
- ↑ Personen-Suchmaschinen: Die Spuren der Anderen im Internet. In: Stern digital
- ↑ Lewandowski, Dirk,: Web-2.0-Dienste als Ergänzung zu algorithmischen Suchmaschinen. Logos-Verl, Berlin 2008, ISBN 978-3-8325-1907-0, S. 57.
- ↑ Andrei Broder: A taxonomy of web search. In: ACM SIGIR Forum. Bd. 36, Nr. 2, 2002, ISSN 0163-5840, S. 3–10, doi:10.1145/792550.792552.
- ↑ Arten von Suchanfragen (transaktionale/navigationale/informationale) | Content Marketing Glossar. In: textbroker.de. Abgerufen am 1. Juli 2019 (deutsch).
- ↑ Vanessa Fox: Marketing in the Age of Google. John Wiley & Sons, 2012, S. 67–68.
- ↑ Yasni: Personensuchmaschine am Start basicthinking.de, 29. Oktober 2007
- ↑ Aufregung um Duck Duck Go: Der Anti-Tracking-Browser lässt Tracking durch Microsoft zu. Abgerufen am 8. August 2022 (österreichisches Deutsch).
- ↑ Bettina Ullrich: Google-Alternativen: Diese Suchmaschinen bieten Datenschutz – und Klimaschutz | Sonntagsblatt - 360 Grad evangelisch. Abgerufen am 8. August 2022.
- ↑ Search Engine Market Share Germany. Statcounter, abgerufen am 15. Juni 2023 (englisch).
- ↑ a b Golem.de: IT-News für Profis. Abgerufen am 21. März 2021.
- ↑ Results on Ecosia Search - Ecosia Help Center. Abgerufen am 26. Dezember 2024.
- ↑ Search Engine Market Share Worldwide. Statcounter, abgerufen am 15. Juni 2023 (englisch).