Wikipedia:Technik/Text/Analyse/LanguageTool

LanguageTool ist ein freies, durch Java Plattform-unabhängiges Programm zur Grammatik- und Rechtschreibkorrektur. Es integriert sich als Erweiterung in die Textverarbeitung von LibreOffice/Apache OpenOffice oder in die Textfelder des Browsers Mozilla Firefox oder des e-Mail-Programms Mozilla Thunderbird. Zudem läuft es auch als eigenständiges Programm mit grafischer Oberfläche, über ein Kommandozeilenprogramm und besonders für Wikipedia-Autoren interessant als Webapplikation.[1]
WikiCheck
LanguageTool WikiCheck ist ein in Grails implementiertes Webinterface, das Wikipedia-Artikel automatisch auswertet, Korrekturen vorschlägt und diese wieder zurück an Wikipedia überträgt. Der Autor überprüft die Änderungen und drückt hier auf Speichern. Man kann einen Artikel seiner Wahl prüfen, einen zufälligen oder die letzten Änderungen. Eine Integration in die Wikipedia-Oberfläche ist mit Benutzer:Schnark/js/extratabs möglich. Umgekehrt nutzt LanguageTool auch das große, frei verfügbare Textkorpus aus Wikipedia, um die eigenen Regeln automatisiert zu testen und in die Richtung zu optimieren, dass wenig falsch-positive Meldungen den Benutzer stören.
RuleEditor
Neue Regeln zum Aufspüren von Stil-, Grammatik- und Zeichensetzungsfehlern können von jedermann dem Projekt beigesteuert werden. Die Entwicklung wird offen über GitHub koordiniert. Man muss jedoch kein Programmierer mit Kenntnissen von Versionsverwaltung oder gar Computerlinguist sein, um dem Projekt zu helfen. Neue Regeln im XML-Format können über ein Webinterface namens LanguageTool RuleEditor erstellt und getestet werden. Im Anschluss können sie den jeweiligen Projektbetreuern zugesendet werden.
Auch ist es möglich eigene Regeln zu erstellen, die sich beispielsweise an Projektrichtlinien wie Wikipedia:Vermeide hohle Phrasen orientieren.[2][3] Ein Beispiel einer solchen XML-Regel wäre:
<rule id="WP_VHP" name="Wikipedia: Vermeide hohle Phrase">
<pattern>
<token regexp="yes">Ärzte|Einige|Fachleute|Kritiker|Manche|Viele|Wissenschaftler</token>
<token regexp="yes" postag_regexp="yes" postag="VER:.*">behaupten|glauben|meinen|sagen</token>
</pattern>
<message>Floskeln, die Fakten lediglich vorgaukeln, ohne sie zu konkretisieren und zu belegen sollten vermieden werden</message>
<url>https://de.wikipedia.org/wiki/Wikipedia:Vermeide_hohle_Phrasen</url>
<example type='incorrect'><marker>Kritiker sagen</marker></example>
<example type='correct'></example>
</rule>
Die erste Zeile dient der Benennung. Im darauf folgenden XML-Element wird ein Suchmuster definiert. Jedes Satzelement (wie beispielsweise Einzelwörter oder der Hinweis auf ein Satzende) durchläuft die Tokenisierung und wird mit dem Suchmuster abgeglichen. In diesem Fall werden reguläre Ausdrücke verwendet, wobei die Trennung |
einem logischen "oder" entspricht. Des Weiteren versucht LanguageTool die Grammatik zu erraten und klassifiziert die "Token" daher anhand einer hinterlegten Datenbank. Mit postag="VER:.*"
wird vorgegeben, dass die Regel nur auf Verben anzuwenden ist um falsch-positive wie "Viele Sagen wurden durch die Gebrüder Grimm gesammelt" auszuschließen. Der reguläre Ausdruck *
(Wildcard) ist ein Platzhalter und gibt an, dass Verben jedweder Konjugation gemeint sind. Zum Schluss wird noch ein Hinweis für den Benutzer, eine URL als Beleg und Erläuterung sowie Beispielsätze angegeben, die in automatischen Softwaretests ausgewertet werden.
Weblinks
- Rechtschreib- und Grammatikprüfung mit LanguageTool
- LanguageTool Community mit WikiCheck und RuleEditor
- GitHub: LanguageTool
Einzelnachweise
- ↑ Markus Brenneis: LanguageTool – Freie Stil- und Grammatikprüfung in freiesMagazin 08/2012
- ↑ Automatische Prüfung von Wikipedia-Artikeln, WikiCon, November 23, 2013, Karlsruhe, PDF, ODP
- ↑ Automatische Prüfung von Wikipedia-Artikeln, Wikimedia Deutschland: Offener Sonntag, May 26, 2013, Berlin, PDF, ODP