Text Engineering Software Laboratory
Tesla | |
---|---|
Basisdaten
| |
Entwickler | Universität zu Köln |
Betriebssystem | plattformunabhängig |
Programmiersprache | Java |
Kategorie | Natural language processing |
Lizenz | Eclipse Public License |
tesla.spinfo.uni-koeln.de |
Tesla (Text Engineering Software Laboratory, deutsch Labor zur Verabeitung von Texten) ist eine Software, mit der reproduzierbare Experimente auf textuellen Daten durchgeführt werden können. Als textuelle Daten gelten dabei alle Arten von Daten, die sich durch eine Sequenz diskreter Einheiten darstellen lassen.
Tesla wird seit 2005 am Institut für Linguistik der Universität zu Köln entwickelt und stellt eine Software-Umgebung für Wissenschaftler, die mit Texten arbeiten, zur Verfügung.
Der konzeptuelle Schwerpunkt des Frameworks liegt dabei auf experimenteller Daten- und Verfahrensanalyse; so werden Wissenschaftler dabei unterstützt,
- unterschiedliche Arten von Texten (bspw. natürlichsprachliche Texte oder DNA-Transkriptionen) als Grundlage ihrer Experimente auszuwählen,
- etablierte ebenso wie neu entwickelte Verfahren auf diesen Texten anzuwenden und
- die Experimente in einer Form zu dokumentieren, mit der sie nachvollzogen und wiederholt werden können.
Tesla ist als Komponentensystem in Java implementiert, das auf Basis einer Client-Server-Architektur realisiert wurde. Über den Eclipse-basierten Client kann der Nutzer Texte verwalten und Experimente designen. Experimente bestehen aus dem zu analysierenden Ausgangsmaterial (einzelne Texte oder Textsammlungen) und Komponenten, die bestimmte Aufgaben der Textprozessierung (bspw. Tokenisierung, Part-of-speech Tagging oder Sequenzalignment) übernehmen. Die Komponenten sind miteinander kombinierbar, wenn ihre Schnittstellen aufeinander abgestimmt sind. Schnittstellen der Komponenten sind die von ihnen erzeugten Ergebnisse, als Annotationen an die Rohdaten (Texte) geschrieben werden. Im Unterschied zu vergleichbaren Systemen wie UIMA sind die Ein- und Ausgabeschnittstellen von Tesla-Komponenten kaum restringiert, wodurch eine fein granulierte Komponenten-Kapselung ermöglicht wird.
Literatur
- Jürgen Hermes, Stephan Schwiebert: "Classification of text processing components: The Tesla Role System." In: Fink, Lausen, Seidel und Ultsch: "Advances in Data Analysis, Data Handling and Business Intelligence", Springer Verlag 2009