Google ist eine Internet-Suchmaschine, die am 7. September 1998 von Larry Page und Sergey Brin gegründet wurde.
Seit einigen Jahren ist Google die bekannteste und am meisten genutzte Suchmaschine. Google ist auch für die Suche nach PDF-, Postscript-, Word- und PowerPoint-Dateien geeignet. Bsp.: Suche „Wort“ in Wikipedia per Google.
Zusätzlich zu Webseiten (zur Zeit werden ca. 8 Milliarden durchsucht) lassen sich auch Bilder auffinden. Die Anzahl der indizierten Bilder liegt derzeit bei ca. 880 Millionen. Es können darüber hinaus, durch den Aufkauf der Firma DejaNews, die vorher das Usenet indiziert hatte, ca. 845 Millionen Diskussionbeiträge aus dem Usenet zu über 35.000 Themengebieten durchsucht werden.
Neben den reinen Suchfunktionen verfügt Google über ein redaktionell betreutes Webverzeichnis, welches auf dem Open Directory Project basiert, in dem von Menschenhand wichtige und nützliche Webseiten zu allen möglichen Themengebieten katalogisiert werden.
Google betreibt auch eine News-Seite, die permanent über 700 deutsche sowie über 4500 englische Nachrichten-Quellen durchsucht und aktuelle Nachrichten dann nach Relevanz geordnet zusammenstellt. Dabei wird das so genannte Page Ranking- Verfahren angewendet. Zur Zeit befindet sich dieser Dienst noch in der Beta-Phase, ist aber bereits komplett nutzbar. Die jeweiligen Webseiten lauten http://news.google.de bzw. http://news.google.com.
Zudem bietet Google eine Suchmaschine an, die sich vollständig auf die Indizierung von Shops spezialisiert hat. Sie wird Froogle genannt und ist unter http://froogle.google.com/ zu finden, zur Zeit nur auf Englisch. Internationale Versionen sollen folgen.
Die Computer von Google bearbeiten zur Zeit pro Tag mehr als 200 Millionen Anfragen. Google könnte aber auch wegen der hohen Spam-Rate an Popularität verlieren.
Im Laufe des Jahres 2004 wird Google auch seinen E-Mail-Dienst GMail in Deutschland starten. In den USA ging dieser am 1. April an den Start. Der Dienst, der sich offiziell weiterhin in der Testphase befindet, verspricht seinen Nutzern ein E-Mail-Postfach in der Größe von einem Gigabyte. Im Gegenzug wird die Post elektronisch auf Schlüsselwörter durchscannt, um den E-Mails passende Werbung zur Seite zu stellen. Dieses Verfahren hat den Zorn der Datenschützer weltweit entfacht.
Der Name „Google“
Die Bezeichnung rührt von der amerikanischen Aussprache des Wortes googol her. Diesen Ausdruck erfand der Neffe des US-amerikanischen Mathematikers Edward Kasner, Milton Sirotta. Er wollte der Zahl mit einer Eins und hundert Nullen einen Namen geben. Die Google-Gründer wiederum waren auf der Suche nach einer treffenden Bezeichnung für die Fülle an Informationen, welche mit ihrer Suchmaschine im Web aufgefunden werden sollte.
Der Name basiert auf dem gleich auszusprechenden englischen googol (=10100) und soll die Assoziation mit einer ungeheuerlichen Zahl von indizierten Webseiten aufkommen lassen. In Wirklichkeit handelt es sich zurzeit (November 2004) „nur“ um etwas über 8 Milliarden (=8 109) [1] (laut Betreiberangaben: 8.058.044.651) Seiten. Diese Zahl wiederum nimmt sich noch klein aus gegenüber der geschätzten totalen Größenordnung von Webseiten von an die 500 Milliarden [2] unter Berücksichtigung des Deep Web.
Google-Historie
1995 – Larry Page und Sergey Brin begegnen sich an der Stanford University. Sie konzipieren die Suchmaschine BackRub – einen Google-Vorläufer.
1998 – Internetportale outen Desinteresse an der entwickelten Suchtechnologie.
7. September 1998 – In einer Garage gründen Page und Brin die Google Inc. Mit einem Startkapital von umgerechnet 810.000 Euro bringen sie die erste Testversion des Programms auf den Markt.
Februar 1999 – Google bezieht mit acht Angestellten ein Büro in Palo Alto. Etwa 500.000 Suchanfragen werden täglich verzeichnet.
September 1999 – AOL und Netscape arbeiten mit Google zusammen, die Suchanfragen versechsfachen sich.
Juni 2000 – Mit mehr als einer Milliarde Seiten im Index ist Google Marktführer bei Suchmaschinen geworden.
Dezember 2001 – Die Zahl von drei Milliarden Dokumentenzugriffen, darunter Beiträge bis zum Jahr 1981 zurück, wird erreicht.
Juli 2003 – Ein deutschsprachiger Nachrichtenservice wird angeboten. Angeblich entstehen hier Google-News ohne menschliches Eingreifen.
29. April 2004 – Google verkündet den seit geraumer Zeit erwarteten Gang an die US-Börse.
Am 1. August 2004 startete die Online-Registrierung für den IPO (Börsengang), von dem man sich einen Erlös von 3,3 Milliarden US-Dollar erhofft. Der ursprünglich geplante Ausgabepreis von 108 bis 135 Dollar je Aktie musste auf 80 bis 85 Dollar gesenkt werden, bevor die Aktie am 19. August 2004 zum ersten Mal in den Handel kam. Bereits am ersten Handelstag stieg der Kurs auf über 100 Dollar und machte damit Larry Page und Sergey Brin, die jeder noch etwa 38 Millionen Aktien halten, zu Multimilliardären.
Seitenreihenfolge
Google.de verwendet zur Erstellung der Seitenreihenfolge einen Algorithmus, der die Seite u.a. anhand der Quantität und Qualität der Links bewertet, die zu ihr führen. Das grundsätzliche Page Ranking (etwa: „Seiten mit Rang versehen“; die Methode wurde nach ihrem Erfinder Larry Page benannt) funktioniert im Prinzip nach einer der beiden Formeln:
wobei
- PR(A) der Seitenrang einer Seite A,
- PR(Ti) der Seitenrang der Seiten Ti, i=1..m, von denen ein Link auf die Seite A zeigt,
- C(Ti) die Gesamtanzahl der Links, die von der Seite Ti ausgehen
- d ein Dämpfungsfaktor, mit 0 <= d <= 1 und
- N die Anzahl aller Seiten des Webs
ist. Man beachte, dass diese Definition rekursiv ist. Praktisch wird zu Anfang allen Seiten ein konstanter Rang zugewiesen und die Formel so lange iteriert, bis Konvergenz auf die Endrangreihenfolge eintritt.
Wie der Algorithmus genau funktioniert bleibt ein Betriebsgeheimnis. Die aufkommende monopolartige Stellung im Markt für Suchmaschinen wird vielfach angesprochen, da Google seine Leistungen auch an andere Suchmaschinen verkauft. (Marktanteile-Quelle: [3]).
Die Reihenfolge, in der die Homepages angeboten werden, ist also nicht willkürlich. Je mehr andere Seiten im Internet auf entsprechende Seite verlinkt sind, desto weiter oben in der Google-Liste steht die Homepage. Auch wenn der Suchbegriff auf einer Seite mehrmals vorkommt, gerät die Homepage weiter nach vorne. Die Popularität bestimmt das Suchergebnis. Begehrte Plätze sind die ersten zehn angezeigten Seiten. Sie werden Studien zufolge zu neunzig Prozent besucht.
Werbung, Finanzierung
Geschäftszahlen | |||
---|---|---|---|
Jahr | Umsatz in Mio. Dollar |
Gewinn in Mio. Dollar | |
2003 | 961,9 | 105,6 | |
2002 | 347,8 | 99,7 | |
2001 | 86,4 | 7,00 | |
2000 | 19,1 | -14,7 |
Google ist ein kommerzielles Unternehmen. Google kommt ohne grafische Werbebanner aus, verkauft dafür aber für beliebige Suchbegriffe einen „Platz an der Sonne“. Diese reine Text-Werbung – so genannte „AdWords“ – ist aber speziell hervorgehoben, so dass die eigentlichen Suchergebnisse nicht beeinflusst werden. Wird ein Suchbegriff eingegeben, der zum Angebot eines „AdWords“-Teilnehmer passt, wird dessen Link angezeigt. Die Einnahmen des Unternehmens stammen auch von Internet-Portalen, welche die Google-Suchtechnik für ihre eigenen Dienste übernehmen. Zusätzlich entstehen Gewinne durch das Google „AdSense“- Partnerprogramm; dies ist kontextabhängige Werbung, welche Webmaster auf ihren Webseiten einbinden können. Hierüber können seit Mai 2004 auch grafische Werbebanner in 4 Standardgrößen platziert werden.
Das Unternehmen hat seinen Sitz im kalifornischen Mountain View. Es beschäftigte im Sommer 2004 rund 2300 Mitarbeiter. Im Jahr 2004 vollzog Google seinen lange erwarteten Börsengang (IPO).
Verwendete Computer
Die verwendeten Server bei Google sind normale Standard-PCs, die sich die Arbeit teilen (mehrere weltweit verteilte Computercluster. Sie laufen unter dem Betriebssystem GNU/Linux und werden bei einem Defekt einfach abgeschaltet, so dass die Arbeit anschließend von einem anderen PC erledigt wird. Dieses System erweist sich bei Google als kostengünstige Alternative zu einem Großrechner.
Nach einer Schätzung auf Basis der Google Unterlagen zum IPO aus dem April 2004 [4] sieht die Google-Hardwareausstattung etwa wie folgt aus:
- 719 Racks
- 63.272 Rechner
- 126.544 CPUs
- 253.088 GHz processing power
- 126.544 GB RAM
- 5.062 TB Festplattenspeicher
Datenschutz
Die Verwendung von sehr „langlebigen“ Cookies und andere Vorwürfe, u.a. das Speichern der „Cookie ID“, der IP-Adresse, Zeit, Datum und Inhalt der Suchabfrage sowie der Browser-Konfiguration reichten der Bürgerrechtsgruppe Public Information Research, um Google in den USA für den „Big Brother Award“ zu nominieren [5].
Manipulation
Aufgrund seiner bedeutenden Marktposition ist Google Hauptziel von Suchmaschinen-Spamming. Dabei wird versucht, gute Positionen bei möglichst vielen Suchbegriffen (die meist nichts mit dem Angebot des Spammers zu tun haben) zu erzielen. Es werden zum Beispiel Techniken wie Doorway-Pages eingesetzt, bei der dem Suchroboter von Google ein zum Suchbegriff passender Inhalt vorgegaukelt wird, von Google kommende Besucher aber auf eine Seite des Spammers weitergeleitet werden. Dass sich die Reihenfolge der Treffer bei Google manipulieren lässt, belegt u.a. der Kampf um den vordersten Platz beim Suchbefehl "miserable failure" („klägliches Scheitern“). Gegner des amtierenden Präsidenten George W. Bush sorgten durch Einsatz einer Google-Bombe dafür, dass die Webseite des Weißen Hauses mit Bushs Biografie auf Platz 1 landete. Im Gegenzug versuchten andere, Michael Moore dort zu platzieren. Die Plätze wechseln seither gelegentlich.
Durch den Aufbau von sogenannten Linkfarmen können Suchbegriffe bei Google gepusht werden.
Manipulationen, die zum Zweck haben, das Ranking von Websites bei Google zu verbessern, werden auch als Google-Spamming bezeichnet.
Im November 2003 nahm Google eine umfangreiche Anpassung der Bewertungs-Algorithmen vor, mit dem Ziel Manipulationen zu erschweren. Es fand im Anschluss eine erhebliche Verschiebung des Page Ranks statt. Vermeintlich hochoptimierte Seiten wurden schlechter bewertet, weniger optimierte Seiten stiegen im Page Rank. Nach sehr schlechten Praxiserfahrungen und zahlreichen Protesten wurden die Änderungen der Algorithmen nach kurzer Zeit weitestgehend wieder rückgängig gemacht bzw. überarbeitet.
Gebrauch
Einfache Benutzung
Neben der einfachen Suche steht noch eine weitere Suchmaske (erweiterte Suche) zur Verfügung, über welche bestimmte Filter angewendet werden können.
Die einfache Suche verwendet bei Eingaben standardmäßig die boolesche Operatoren UND beim Eintrag mehrerer Begriffe. Es wird dabei nach allen Dokumenten gesucht, in denen diese Begriffe vorkommen. Gewichtet wird, neben dem Page Rank, meist danach, wo die Begriffe stehen – ob im Titel einer Seite, dem Dokumenten-Namen oder Verzeichnis, einer Überschrift etc.
Neben der Boolschen Standardverknüpfung UND kann auch ein boolesches ODER („OR“ wahlweise auch„|“) verwendet werden. Suchbeispiel: Strand OR Beach. Eine sowohl-als-auch Anweisung.
Um die Suche weiter einzugrenzen, kann man nach exakten Phrasen suchen. Die Suchbegriffe tauchen dann nicht wahllos im Dokument auf, sondern müssen in einer bestimmten Anordnung vorhanden sein. Exakte Suchphrasen werden mit Anführungszeichen kenntlich gemacht. Suchbeispiel: "Bearbeiten von Google". Es werden keine Dokumente gesucht, in denen irgendwo das Wort „Bearbeiten“ und irgendwo das Wort „Google“ steht, sondern nur solche, in denen die Wörter in dieser Reihenfolge vorkommen. Wahlweise kann auch für ein Wort ein Platzhalter, kenntlich gemacht durch ein Sternchen, gesetzt werden.
Als weiteres Ausschlusskriterium kann ein Minuszeichen „-“ Verwendung finden. Suchbeispiel: Hannibal -Lector. Sucht nach einem antiken Feldherrn und schließt aber Seiten aus, in denen der Name in Verbindung mit einer Filmfigur namens „Lector“ steht.
Hinweise:
- Anhand dieser Verknüpfungen (die kombiniert angewendet werden können) sind schon sehr präzise Abfragen möglich.
- Bei Eingabe einfacher mathematischer Schreibweisen wie z.B. 2+5(4/5)^8 gibt Google standardmäßig keine Seiten aus, in denen diese Formulierung vorkommt, sondern gibt das Ergebnis der Rechnung (= 2.8388608) zurück.
- Google hat einen sehr großen Wortschatz. Vor allem bei Eigennamen, Marken und speziellen Fachbegriffen etc. empfiehlt sich Google als Rechtschreibhilfe. Beispiel: Schreibt man „DaimlerChrysler“ zusammen, auseinander oder mit Bindestrich? Google fragt bei einer unbekannten oder untypischen Eingabe: „Meinten Sie ......“
- Google indiziert immer nur die ersten 100 KB einer Datei, was besonders bei PDF-Dokumenten stark ins Gewicht fällt.
Erweiterte Benutzung
Es kann zusätzlich zu dieser einfachen Such-Syntax eine erweitete Syntax in die Suchmaske eingegeben, bzw. größtenteils auch über die „erweiterte Suche“ zusammengeklick werden. Folgende, teils undokumentierte Schlüsselbegriffe sind derzeit bekannt. Diese Schlüsselbegriffe werden durch einen Doppelpunkt „:“ gekennzeichnet.
- filetype: -Sucht nach Dokumenten, mit bestimmten Dateiendungen. Beispiel: geschäftsbericht filetype:xls . Möglich sind grundsäzlich alle Dateiendungen. Google kann derzeit aber nur in folgende Formate „reinschauen“: PS, PDF, AI, DOC, PPT, XLS, sowie alle textbasierten Dateien wie TXT, ASP, PHP, CGI, HTM, LOG, INI, JS usw
- site: – mit diesem Schüsselbegriff lässt sich die Suche auf eine bestimmte Domain eingrenzen. Praktisch vor allem dann, wenn eine Homepage keine eigene Suchfunktion hat. Beispiel: Desoxribonukleinsäure site:wikipedia.org
- link: – Gibt alle Seiten aus, die auf eine bestimmte Seite verlinken. Beispiel: link:wikipedia.org .Diese Ausgabe kann z.B. wichtig sein, um den Page Rank zu optimieren oder verwandte Seiten zu finden.
- intitle: – Sucht nach Dokumenten, bei welchen der oder die Suchbergriffe nur im Titel der Datei vorkommen. Beispiel: intitle:"Bearbeiten von Google"
- inurl: – gibt Seiten zurück, bei denen der Suchbegriff in der URL auftaucht. Beispiel: "Karl Müller" inurl:impressum
- daterange: – schränkt die Suche auf das Datum ein, in dem die Seite von Google indiziert wurde. Als Zeitangaben müssen Zahlen bezogen auf das Julianische Datum eingegeben werden. Errechnet werden diese Zahlen aus der Anzahl der Tage die seit dem 1.Januar 4713 v.Chr. vergangen sind. Beispiel: 30.06.2003-30.06.2004 = daterange:2452820-2453186 (Onlinehilfe). Vorteil für Computer, sie brauchen sich nicht um Formate oder Namen von Tag, Woche oder Jahr zu kümmern.
- cache: – gibt nur die von Google gespeicherten Seiten aus. Ist vor allem praktisch, wenn bei Portalen die Inhalte oft wechseln. Der Link, den man bei Google findet, führt aktuell oftmals auf eine Seite, deren Inhalte sich inzwischen geändert haben oder gar gelöscht wurden. Die Inhalte sind aber über einen bestimmten Zeitraum noch bei Google gespeichert und können dort gelesen werden.
- inanchor: - Sucht nach den Begriffen nur in Links. Oftmals führt ein Link mit einer bestimmten Bezeichnung präziser zu einem Ziel, als wenn die Bezeichnung irgendwo im Text vorkommt.
- u.v.m.
Die angewendeten Suchformeln lassen sich auch in Form der URL, die Google bei einer Suche ausgibt, speichern bzw. wiederholen und verlinken.
Weitere Möglichkeiten
Google erlaubt allerdings auch die Suche nach Dingen wie Stadtplänen, Call-by-Call-Vorwahlen oder auch Aktien- und Fonds-Informationen. Eine übersichtliche Auflistung gibt es unter www.google.de/features.html (deutsch) oder www.google.com/help/features.html (englisch).
Google API
Google veröffentlichte im Frühling 2002 die Google Web API [6], über die es registrierten Entwicklern möglich ist, eigene Anwendungen bzw. Schnittstellen zu schreiben, die den Datenbestand von Google abfragen. Die Abfragen sind pro registriertem Anwender auf 1000 pro Tag begrenzt. Es gibt inzwischen eine Vielzahl von Anwendungen, die auf dieser API aufbauen und von Anwendern per eigenem Developer Key freigeschaltet werden können.
Sonstiges
Googlefest
Eine Beziehung Suchbegriff (oder Phrase) – Suchergebnis gilt als googlefest, wenn die gewählte Sucheingabe genau das gewünschte Suchergebnis liefert. Das Eingabe-Ergebnis Paar 'Madonna' ist googlefest, wenn die Pop-Sängerin Madonna gesucht wurde, aber nicht, wenn man die Mutter Jesus erwartet. Salopp sagt man, eine Internet-Seite sei googlefest, wenn die Eingabe des Seitennamens bei Google das Suchergebnis an erster Stelle führt.
Google Lab
Google arbeitet ständig an Neuerungen und weiteren Features, die man unter http://labs.google.com testen kann. In kurzen Zeitabständen werden auch Statistiken über gerade aktuelle Suchbegriffe veröffentlicht (so genannte Zeitgeist-Statistiken, siehe [7]).
Google Blog
Zudem unterhält Google auch ein so genanntes Weblog, das hauptsächlich Erlebnisse seiner Mitarbeiter enthält. Es ist unter http://www.google.com/googleblog einsehbar.
Google Whack
Als Google Whack bezeichnet man eine Suche nach zwei Wörtern, die, in die Suchmaschine Google ohne Anführungszeichen eingegeben, genau ein Ergebnis liefert. Manche Benutzer haben einen regelrechten Sport entwickelt, solche Wörter zu finden. Eine Punkte-Bewertung wird manchmal vorgenommen, indem die Treffer-Anzahl der Suche nach den einzelnen Wörtern multipliziert wird. Je höher das Ergebnis, desto „besser“ ist der Google Whack. Im Allgemeinen bleibt die Kombination jedoch nicht lange ein Google Whack, da er, sobald er einmal entdeckt wurde, in diversen Foren u. Ä. erwähnt wird und dort ebenfalls von Google gefunden wird. Die Webseite http://www.googlewhack.com befasst sich ausführlich mit dem Phänomen.
Google Doodles
Seit Mitte 1999 existiert die Tradition der Google Doodles. Damit wird die Veränderung des Google-Logos auf der Startseite in Anlehnung an aktuelle und/oder wiederkehrende Ereignisse bezeichnet. Bisher sind ca. 150 Logos erstellt worden. Ein Verzeichnis der bisherigen Google Doodles befindet sich unter http://www.google.com/holidaylogos.html . Jeder User hat die Möglichkeit, neue Vorschläge einzubringen. Die E-Mail-Adresse dafür lautet doodle@google.com.
Googlen
Das Suchen per Google ist so einfach und beliebt, dass das Verb googeln oder googlen bereits für die allgemeine Websuche (zunächst nur im Usenet) oder gar überhaupt für die Suche nach Information verwendet wird. Schüler geben an, dass sie lieber und schneller googeln als bibliografieren oder in einer Enzyklopädie oder einem Lexikon nachschlagen. Seit 2004 gehört googeln offiziell zum Sprachgebrauch (siehe auch Duden).
Siehe auch
Suchmaschine – Suchmaschinen-Spamming – Webverzeichnis – Google-Bombe – Gesponserte Links – AltaVista – Lycos – Wikipedia:Darwikinismus – Wikipedia:Googles Lieblinge - Schnitzelmitkartoffelsalat
Literatur
Weblinks
- http://www.google.com – Google International (englisch)
- http://www.google.at – Google Österreich
- http://www.google.ch – Google Schweiz
- http://www.google.de – Google Deutschland
- http://www.linksandlaw.de/suchmaschinen.htm - Tricks der Webmaster, um ein gutes Ranking zu erzielen
- http://www.suchmaschinen-tippgeber.de/Alles__ber_Google/index.html – Alles über Google (FH Würzburg-Schweinfurt)
- http://www.drweb.de/google/index.shtml – verschiedene Artikel zu Google
- http://www.google-watch.org/ – Google Überwachung (englisch)
- http://www.taz.de/pt/2003/10/10/a0249.nf/text.ges,1 The World according to Google
- http://google.iphpbb.com/ - Deutsches Google-Webforum
- heise.de/newsticker – Google zensiert Scientology-Kritiker (Artikel vom 21.03.2002)
- Google Blogoscoped Deutsche Auszüge aus diesem engl. Google Weblog
- telepolis.heise.de – Die Welt ist keineswegs alles, was Google auflistet (Telepolis-Artikel vom 25.10.2002)
- Google Watch China A NPO formed by many Google adorers and technical researchers.
- www.zensur.freerk.com/google/ Ein Google Mirror (zum Umgehen von Filtern)
- GGSearch (Google SearchTool)
- Google Keyword Tracking
- http://www.webhits.de/deutsch/index.shtml?webstats.html Web-Statistiken: Unter anderem aktuelle Marktanteile von Suchmaschinen
- Suchmaschinen Wiki
- Die Google-Story (Aus de:Bug)
- "Die Google-Bot-Provokation" Ein etwas eigenartig anmutendes Kunstprojekt: Tilly Taube schreibt einen Brief an "den Google bot".
- Google für "Fortgeschrittene" Interessante Grafik, welche die Elemente der getätigten Suchabfragen (intitle:, filetype:) erläutert.
- Googles Kopf Monika Henzinger, Googles Chefentwicklerin aus der Oberpfalz, ist einer der Gründe dafür, dass die Suchmaschine weltweit beliebt ist.
- Wikipedia wird... Das Google-Orakel von Arne Pottharst http://arnep.de/wasistorakel?