Apache OpenNLP

	Apache OpenNLP
Utvecklare	The Apache Software Foundation
Senaste utgåva	2.5.3; (10 januari 2025)
Skriven i	Java (programmeringsspråk)
Operativsystem	multiplattform
Typ	Naturlig språkbehandling
Licens	Apache Software License
Webbplats	https://opennlp.apache.org/

Apache OpenNLP är en verktygslåda som utnyttjar maskininlärning för naturligt språk behandling (NLP). Den stöder de vanligaste uppgifterna inom NLP, till exempel språkdetektering, tokenisering, meningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing och coreference resolution. Dessa typer av uppgifter behövs vanligtvis för att utveckla mer avancerade textbehandlingstjänster.

Biblioteket är skrivet i Java och kan enkelt integreras i Java-projekt eller projekt som använder Java Virtual Machine (JVM)^[1].

Detaljer

Språkidentifiering: "LanguageDetector" kräver en tränad modell. OpenNLP själv erbjuder den fullt utbildade modellen langdetect-183.bin som en nedladdning. Denna kan identifiera 103 språk.^[2].
Meningsigenkänning: "SentenceDetector" känner igen om en punkt markerar slutet på en mening eller om den har en annan betydelse. Här krävs återigen specifikationen av en utbildad mall. OpenNLP tillhandahåller mallar för olika språk, t.ex. opennlp-sv-ud-talbanken-sentence-1.2-2.5.0.bin för igenkänning av meningar i svenska texter.^[3]
Tokenisering: tokenizer delar upp en teckensträng i tokens. Tokens är vanligtvis ord, skiljetecken, siffror etc.
Part-of-speech labelling: OpenNLP har ett urval av förutbildade mallar för 32 språk (tyska, engelska, spanska, portugisiska, danska etc.). Dessa mallar kan användas för att automatiskt märka en textkorpus på ett av dessa språk.^[4]
Extrahering av namngivna enheter: "TokenNameFinder" kan känna igen namngivna enheter och siffror i text. En mall krävs för att känna igen enheter. Modellen beror på språket och vilken typ av entitet den är tränad för. OpenNLP-projektet erbjuder en rad olika förtränade modeller som har tränats på olika fritt tillgängliga korpusar. De kan laddas ner från sidan för nedladdning av mallar.

Källor

^ ”Apache OpenNLP - Building from Source” (på amerikansk engelska). https://opennlp.apache.org/building.html. Läst 5 januari 2025.
^ ”Apache OpenNLP - Language Detection Model” (på amerikansk engelska). https://opennlp.apache.org/models.html#language_detection. Läst 5 januari 2025.
^ ”Apache OpenNLP - Sentence Detection Models” (på amerikansk engelska). https://opennlp.apache.org/models.html#sentence_detection. Läst 5 januari 2025.
^ ”Apache Stanbol - OpenNLP POS Tagging Engine” (på amerikansk engelska). https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html. Läst 5 januari 2025.

Se även

[1] ”Apache OpenNLP - Building from Source” (på amerikansk engelska). https://opennlp.apache.org/building.html. Läst 5 januari 2025.

[2] ”Apache OpenNLP - Language Detection Model” (på amerikansk engelska). https://opennlp.apache.org/models.html#language_detection. Läst 5 januari 2025.

[3] ”Apache OpenNLP - Sentence Detection Models” (på amerikansk engelska). https://opennlp.apache.org/models.html#sentence_detection. Läst 5 januari 2025.

[4] ”Apache Stanbol - OpenNLP POS Tagging Engine” (på amerikansk engelska). https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html. Läst 5 januari 2025.

[1]

[2]

[3]

[4]