Deep Web

Das Deep Web (auch Hidden Web oder Invisible Web) bezeichnet den Teil des Internet, der bei einer Internetrecherche nicht über normale Suchmaschinen auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in "Inhalte, die nicht frei zugänglich sind" und "Inhalte, die nicht von Suchmaschinen indexiert werden". Die Größe des Deep Web kann nur geschätzt werden - es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen werden ständig weiterentwickelt, daher können Webseiten die gestern noch zum Deep Web gehörten heute schon Teil des Oberflächenwebs sein.

Eigenschaften

Nach einer Studie (Bergmann 2001) der Firma BrightPlant ergeben sich für das Deep Web folgende Eigenschaften:

Die Datenmenge des Deep Web ist ca 400-550 mal größer als die des Surface Web
Das Deep Web beinhaltet 7500 Terabyte Informationen, das Surface Web 19 Terabyte (Anm. 1 Terabyte = 1024 Gigabyte)
Das Deep Web beinhaltet nahezu 550 Milliarden Persönliche Dokumente, das Surface Web eine Milliarde
Es existieren mehr als 200.000 Deep Websites
60 der grössten Deep Web Seiten enthalten etwa 750 Terabyte an Informationen, was die Menge des Surface Web um den Faktor 40 übersteigt
Durchschnittlich haben Webseiten aus dem Deep Web monatlich 50% mehr Zugriffe, und sind öfter verlinkt als Webseiten aus dem Surface Web. Trotzdem ist der im Internet suchenden Öffentlichkeit die normale Deep Webseite kaum bekannt
Das Deep Web ist die am schnellsten wachsende Kategorie von neuen Informationen im Web
Deep Webseiten sind begrenzter und inhaltlich tiefer als Surface Webseiten
Inhalte des Deep Web sind qualitativ 1000 bis 2000 mal höherwertig als Inhalte des Surface Web
Inhalte des Deep Web sind bedeutetend für jede Informationsabfrage und jedes Wissensgebiet
Mehr als die Hälfte des Deep Web ist in themenspezifischen Datenbanken angesiedelt
Mehr als 95% des Deep Web sind frei zugänglich ohne dass Gebühren gezahlt werden müssten

Da Bright Planet mit DQM2 eine kommerzielle Suchhilfe anbietet, ist die stark überschätzte Größenangabe mit großer Vorsicht zu genießen. Die geschätze Datenmenge des Deep Web muss um einige Daten bereinigt werden:

Dubletten aus Bibliothekskatalogen die sich überschneiden
Datensammlung des National Climatic Data Center (370.000 GByte)
Daten der NASA (220.000 GByte)
weitere Datensammlungen (National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa, ...)

Anhand der Anzahl der Datensätze zeigt sich, dass die Studie die Größe des Deep Web um das zehnfache überschätzt. Allein der Informationsanbieter Lexis Nexis zieht nach Anzahl der Datensätze mit dem Suchmaschinenprimus Google gleich. Das Deep Web ist daher sicher weitaus größer als das Oberflächenweb.

In einer Untersuchung der University of California, Berkeley aus dem Jahr 2003 wurden folgende Werte als Umfang des Internets ermittelt: Surface Web - 167 Terabyte, Deep Web - 91850 Terabyte. Die gedruckten Bestände der Library of Congress in Washington, der größten Bibliothek der Welt, umfassen 10 Terabyte.

Arten des Deep Web

Nach Sherman & Price (2001) werden 4 Typen des Invisible Web unterschieden: Opaque Web, Private Web, Proprietary Web, Invisible Web und Truly invisible Web.

Opaque Web, Webseiten die indiziert werden könnten, zur Zeit aber aus Gründen der Performance oder Aufwand-Nutzen-Relation nicht indiziert werden (Suchtiefe, Besuchsfrequenz)
- Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten (max. 100 KB) einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden.
- Dateiformate, die nur teilweise erfasst werden können (z.B. PDF, Google indiziert immer nur die ersten 120 KB - etwa 100.000 Textzeichen - einer PDF-Datei)
- Häufigkeit der Indizierung einer Webseite (täglich, monatlich)
- Ständig aktualisierte Datenbestände, Messdaten, Echtzeit-Daten
- Webseiten ohne Hyperlinks oder Navigationsystem, unverlinkte Webseiten, Einsiedler-URLs oder Orphan-Seiten (engl. Waise)
Private Web, Webseiten die indiziert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indiziert werden
- Webseiten im Intranet (interne Webseiten)
- Passwortgeschützte Daten (Registrierung und evtl. Kennwort und Login)
- Zugang nur für bestimmte IP-Adressen
- Schutz vor einer Indizierung durch den Robots Exclusion Standard
- Schutz vor einer Indizierung durch die Meta-Tag-Werte noindex, nofollow und noimageindex im Quelltext der Webseite
Proprietary Web, Webseiten die indiziert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung zugänglich sind (kostenlos oder kostenpflichtig)
- Webseite abrufbar nach Identifizierung (Webbasierte Fachdatenbanken)
Invisible Web, Webseiten die indiziert werden könnten, die jedoch aus kaufmänischen oder strategischen Gründen nicht indiziert werden
- Datenbanken mit einem Webformular
Truly Invisible Web, Webseiten die nicht indiziert werden können
- Datenbankformate die vor dem WWW entstanden sind (Einige Hosts)
- Dateiformate, die nicht erfasst werden können (zum Beispiel Flash und Grafikformate)
- komprimierte Daten
- Webseiten, die nur über eine Benutzernavigation die Grafiken (Image Maps) oder Scripte (Frames) benutzt
- Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate
- Peer-to-Peer-Tauschbörsen, Multimedia-Dateien
- FTP-Server
- Chatroom, IRC
- Von Suchmaschinen absichtlich vernachlässigte Daten

Datenbanken

Dynamisch erstellte Webseiten

Suchmaschinen nutzen Webcrawler (Suchroboter) die ununterbrochen im Netz unterwegs sind um neue Webseiten zu finden. Diese Webcrawler folgen den Hyperlinks der Webseiten. Eine der technischen Grundlagen des World Wide Web und von Hyperlinks ist die Seitenbeschreibungssprache HTML, Hyperlinks sind in HTML verfasst (SelfHTML, Links). Webcrawler bearbeiten fast ausschließlich statische Webseiten in HTML. Datenbanken, deren Seiten erst auf Anfrage dynamisch generiert werden, werden von den link-basierten Webcrawlern der Suchmaschinen noch kaum durchsucht. Die Suchroboter können Datenbankabfragen von Servern mit Datenbankverwaltungssystemen wie MySQL oder Microsoft Access, die mit Programmiersprachen wie PHP, ASP oder CGI-Skripten dynamisch erstellt wurden, oft nicht indexieren. Dynamisch erstellte Webseiten sind zu erkennen an den Sonderzeichen ?, &, %, und = in der URL. Der Teil einer dynamischen URL mit den Suchparametern (nach dem Sonderzeichen) nennt sich Query-String. Als Schnittstelle zum Internet (Gateway) dient dynamischen Datenbanken eine Bedienoberfläche mit einem Such-Formular in HTML. Dieses Suchformular oder diese Suchmaske der Datenbanken wird von Suchmaschinen gefunden. Um auf diese Datenbanken zugreifen zu können, müssten Suchmaschinen für jeden einzelnen Datenbanktypus eine eigene Zugriffsmethode (einen sogenannten Wrapper) einpflegen, was durch einen hohen Entwicklungsaufwand in keinem Kosten-Nutzen Verhältnis stehen würde. Kooperative Datenbankanbieter erlauben Suchmaschinen über JDBC oder andere Mechanismen einen Zugriff auf den Inhalt ihrer Datenbank. Nicht kooperative Datenbanken erlauben den Datenbankzugriff nur über ein Such-Formular. Das Oberflächenweb ist einfach zu definieren, es besteht aus HTML-Seiten, die von Webcrawlern indexiert wurden.

Hosts und Fachdatenbanken

Hosts sind kommerzielle Informationsanbieter, die Fachdatenbanken unterschiedlicher Informationsproduzenten innerhalb einer Oberfläche bündeln. Manche Datenbananbieter (Hosts) oder Datenbankproduzenten selbst betreiben relationale Datenbanken, deren Daten nicht ohne eine spezielle Zugriffsmöglichkeit (Retrieval-Sprache, Retrieval-Tool) abgerufen werden können. Webcrawler verstehen weder die Struktur noch die Sprache die benötigt wird um Informationen aus diesen Datenbanken auszulesen. Viele Hosts sind seit den 1970er Jahren als Online-Dienst tätig und betreiben in ihren Datenbanken teilweise Datenbanksysteme, die lange vor dem WWW entstanden sind. Die Vorteile von Informationen aus Host-Datenbanken sind unter anderem die hohe Qualität, Relevanz, Aktualität, Authentizität, Integrität und Neutralität.

Beispiele für Datenbanken: Bibliothekskataloge (OPAC), Börsenkurse, Fahrpläne, Gesetzestexte, Jobbörsen, Nachrichten, Patente, Telefonbücher, Webshops, Wörterbücher.

Recherche im Internet

Suchwerkzeuge

Stock (HHU Düsseldorf) unterscheidet nach den Weltregionen digitaler Informationen, dem Oberflächenweb und dem Deep Web. Im Oberflächenweb kann recherchiert werden mit den Suchwerkzeugen Suchmaschine, Webkatalog, Meta-Suchmaschine und Portal, im Deep Web mit Datenbanken und Hosts. Unter Querweltein-Ergänzungen versteht er Links vom Oberflächenweb ins Deep-Web (z.B. Brückenseiten) oder umgekehrt. Hybrid Systeme sind Suchwerkzeuge, die quer durch die Internetwelten Recherchen anbieten. Vortrag: Suchmaschinen und Informationsflut, 05/2003

Informationskompetenz

Mit Hilfe des Internet ist die Recherche nach Informationen für die Bevölkerung in einem bisher ungekannten Ausmaß möglich. Das Problem besteht darin, in diesem unüberschaubaren, schwer auswertbaren und riesigen Angebot hochwertige Seiten zu finden, und auf zufriedenstellende Weise Informationsperlen von Informationsmüll zu trennen. Die informationelle Absicherung wird für viele Nutzer oft durch populäre Suchdienste bestimmt. Obwohl eine Vielzahl von Suchdiensten bereit steht um Informationen zu erschließen, werden oft nur wenige marktführende Suchmaschinen (Google) und Webverzeichnisse (Yahoo!) verwendet, die als Ergebnis bevorzugt populärwissenschaftliche Webseiten bieten. Es ist zweifelhaft, ob populäre Suchdienste in der Lage sind Qualität und Umfang der Informationen zu beurteilen, die momentan zu einer Informationsabfrage im Internet abrufbar sind.

Qualität von Online-Dokumenten

Jeder kann Alles im Internet veröffentlichen, eine Qualitätssicherung ist kaum vorhanden. Webseiten die von Privatpersonen erstellt werden lassen sich nur schwer auf Zuverlässigkeit überprüfen. Nicht alle Dokumentengattungen besitzen die gleiche Qualität (im Alltag etwa Werbematerial, Tagespresse, Fachzeitschriften oder Bücher). Anhaltspunkt für höherwertige Informationen ist z.B. die Begutachtung durch einen Redakteur oder eine wissenschaftliche Verifizierung (z.B. double blind peer review). Laien sind oftmals nicht in der Lage Suchergebnisse richtig zu interpretieren. Zum Beispiel konnten in einer Studie des amerikanischen "Center of Disease Control" Anwender die Ergebnisse einer Suche nach gesundheitsrelevanten Themen im Internet nicht kritisch und zuverlässig beurteilten. Zudem sind viele Informationen falsch, überholt, unvollständig oder bestehen aus Werbung (Gesponserte Links). Internetquellen sollten richtig bewertet (Anleitung), oder z.B. mit einer dokumentenbasierten Internet-Recherche (Anleitung, PDF) gesucht werden. Texte im Internet lassen sich zudem durch Hacker manipulieren, Diskussionsforen oder Chatgruppen besitzen keine Qualitätssicherung, es existieren Webseiten mit skurrilen Berichten, mit Beiträgen zu Ausserirdischen, mit (allgemeiner) Paranoia (Waffennarren, Urban Legends), mit (je nach Staat) kriminellen Inhalten - Informationen können durch eine geänderte Rechtsgrundlage und Unterlassung einer Aktualisierung falsch sein - oder Daten können vorsätzlich falsch sein (Zensur). Der Wert vieler Informationen altert, nimmt mit der Zeit ab und wird schon nach wenigen Jahren nahezu unbrauchbar, daneben entstehen immer wieder neue Fachgebiete. In Wikis (z.B. Wikipedia) kann jeder Autor Fehler begehen, seine eigenen Fehler oder die von anderen Autoren jedoch auch ausgleichen.

Flüchtigkeit des WWW

Die Anzahl aller Webseiten wächst schneller als die Bandbreite, die Suchmaschinen zur Verfügung steht, diese Webseiten zu indizieren. Auch die größten Suchmaschinen haben nur etwa 16% (1999) der Inhalte des Internets indiziert. Suchmaschinen legen sich eigene Datenbanken an, in denen sie Informationen (Zeichenfolgen als Stichwörter, Ankertexte) der Webseiten ablegen, sie besitzen keinen inhaltlich erschlossenen Volltextindex der Webseiten. Sucher recherchieren also nicht im Internet, sondern in den Datenbanken der Suchmaschinen. Da Webcrawler ständig das Internet durchsuchen, wachsen die Datenbanken der Suchmaschinen ständig und veränderen sich. Dieselben Anfragen können so an aufeinander folgenden Tagen unterschiedliche Ergebnisse liefern. Durch neue technische Möglichkeiten werden fortlaufend Stuktur, Layout und Webdesign von Webseiten verändert. Relevante Suchergebnisse sind daher nicht immer reproduzierbar und eine identische Recherche führt schlimmstenfalls ins Leere (Toter Link). Im Internet nicht mehr vorhandene Webseiten können mit Glück in der Wayback-Machine aufgerufen werden. Die Halbwertszeit von Hyperlinks beträgt etwa 55 Monate (Netzeitung), die Lebenszeit eines Dokuments im WWW 2,5 Monate (Neue_Zürcher_Zeitung).

Weitere Probleme von Suchmaschinen

Von der Veröffentlichung einer Webseite bis zur Aufnahme in den Suchmaschinenindex können Wochen bis Monate vergehen. Aktuell im Internet bereitgestellte Dokumente können Suchmaschinen nicht sofort nachweisen. Zudem gibt es für neue Webseiten kein sinnvolles Ranking. Auch technische Manipulationen (Suchmaschinenoptimierung, Suchmaschinenspam, Linkfarm) und erkaufte Plazierungen beeinflussen die Sortierung der Ergebnisslisten (Page-Rank). Der Page-Rank lässt die Nutzerfrage weitgehend außer Acht, und seine vorderen Plätze sind häufig wenig relevant.

Ausblick

Suchmaschinen machen zuhnehmend die Inhalte des Deep Web zugänglich und recherchierbar (Produktsuche, Routenplaner, Patente, Wetter). Zudem entwickeln sie sich weg vom bisher maßgeblichen Page-Rank hin zu einer Orientierung an den personalisierten Bedürfnissen des Nutzers (Beispiel Eurekster). Bei einer Recherche nach aktuellen Fachinformationen ist eine Suche mit Suchmaschinen zur Zeit noch unzulänglich. Gute Informationen benötigen die Kenntnis über entsprechende kostenlose Fachdatenbanken und deren Einstiegsadressen - oder kosten Geld (Host). Das Wissen über geeignete Gateways zu Informationsrecourcen ist jedoch unter Nutzern wenig verbreitet. Es entwickelt sich zunehmend eine Zahlungsbereitschaft für qulitativ hochwertige Daten.

Siehe auch

Portal, Wissen, Information, Kommunikation und Medien, Nachschlagewerke im Internet, Information-Retrieval, Semantic Web

Literatur

Stock, Mechthild und Wolfgang, Recherchieren im Internet, Expert Verlag 2003, ISBN 3-8169-2278-3
Ellwein, Christian, Suche im Internet für Industrie und Wissenschaft, Oldenbourg-Industrieverl., München 2002 ISBN 3-486-27039-7
Bergmann, Michael: The Deep Web: Surfacing Hidden Value, The Journal of Electronic Publishing, Jahrgang 7, Nr.1, 2001 [1]
Warnick, W. L. et al.: Searching the Deep Web, D-Lib Magazine, January 2001, Volume 7 Number 1, ISSN 1082-9873 [2]
Sherman, Chris; Price, Gary; The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See, Cyberage Books 2001, ISBN 0-910965-51-X, Webseite zum Buch, Stand 2001

Weblinks