Zum Inhalt springen

Text-Extraction

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 13. Oktober 2004 um 19:39 Uhr durch 81.173.147.181 (Diskussion). Sie kann sich erheblich von der aktuellen Version unterscheiden.
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Text Extraction

Bei der text extraction werden Teile eines Textes - zum Beispiel Sätze oder ganze Abschnitte - mittels statistischer und/oder heuristischer Methoden bezüglich ihrer Wichtigkeit oder Relevanz bewertet. Diese scores of importance dienen als Grundlage für die Entscheidung, welche Teile extrahiert und zu einem kürzeren Text zusammengestellt werden, der dann einen Überblick über die Inhalte des originaltextes hietet und in der Regel als extract bezeichnet wird.

Nach Spärck Jones (1999) haben die mit dieser Methode produzierten Zusammenfassungen den Nachteil, dass sie zumeist wenig kohärent und somit nur schlecht lesbar und unter Umständen sogar unverständlich sind. Andererseits sind diese Methoden und ihre Varianten vermutlich einfacher in automatischen Systemen zu modellieren. Beispiele dafür sind die Systeme von Luhn (1959) und Edmundson (1969) und die Ansätze von Rath et al. (1961) und Brandow et al. (1995).


Bibliographie

Mani, I./Maybury, M. (1999): Advances in Automatic Text Summarization. Massachusetts Institute of Technology

Brandow, R./Mitze, K./Rau, L.F. (1995): Automatic condensation of electronic publications by sentence selection.

Rath, G. J./Resnick, A./Savage, T.R. (1961): The Formation of Abstracts by the Selection of Sentences.

Spärck Jones, K. (1999): Automatic Summarizing: Factors and Directions. In: Mani/Maybury 1999, S. 1-14 (Einleitung)