Apache OpenNLP
Utseende
Den här artikeln kan behöva språkvård eller korrekturläsning. (2025-01) Motivering: Artikeln innehåller bitvis många engelska termer, finns det inga motsvarande svenska begrepp att använda i stället? Hjälp gärna Wikipedia med att förbättra språket i texten eller diskutera saken på diskussionssidan. |
Den här artikeln behöver fler eller bättre källhänvisningar för att kunna verifieras. Motivering: Alla referenser som används nu verkar vara från bolaget självt, finns ingen oberoende källa? (2025-01) Åtgärda genom att lägga till pålitliga källor (gärna som fotnoter). Uppgifter utan källhänvisning kan ifrågasättas och tas bort utan att det behöver diskuteras på diskussionssidan. |
Apache OpenNLP | |
![]() | |
Utvecklare | The Apache Software Foundation |
---|---|
Senaste utgåva | 2.5.3 (10 januari 2025) |
Skriven i | Java (programmeringsspråk) |
Operativsystem | multiplattform |
Typ | Naturlig språkbehandling |
Licens | Apache Software License |
Webbplats | https://opennlp.apache.org/ |
Apache OpenNLP är en verktygslåda som utnyttjar maskininlärning för naturligt språk behandling (NLP). Den stöder de vanligaste uppgifterna inom NLP, till exempel språkdetektering, tokenisering, meningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing och coreference resolution. Dessa typer av uppgifter behövs vanligtvis för att utveckla mer avancerade textbehandlingstjänster.
Biblioteket är skrivet i Java och kan enkelt integreras i Java-projekt eller projekt som använder Java Virtual Machine (JVM)[1].
Detaljer
- Språkidentifiering: "LanguageDetector" kräver en tränad modell. OpenNLP själv erbjuder den fullt utbildade modellen langdetect-183.bin som en nedladdning. Denna kan identifiera 103 språk.[2].
- Meningsigenkänning: "SentenceDetector" känner igen om en punkt markerar slutet på en mening eller om den har en annan betydelse. Här krävs återigen specifikationen av en utbildad mall. OpenNLP tillhandahåller mallar för olika språk, t.ex. opennlp-sv-ud-talbanken-sentence-1.2-2.5.0.bin för igenkänning av meningar i svenska texter.[3]
- Tokenisering: tokenizer delar upp en teckensträng i tokens. Tokens är vanligtvis ord, skiljetecken, siffror etc.
- Part-of-speech labelling: OpenNLP har ett urval av förutbildade mallar för 32 språk (tyska, engelska, spanska, portugisiska, danska etc.). Dessa mallar kan användas för att automatiskt märka en textkorpus på ett av dessa språk.[4]
- Extrahering av namngivna enheter: "TokenNameFinder" kan känna igen namngivna enheter och siffror i text. En mall krävs för att känna igen enheter. Modellen beror på språket och vilken typ av entitet den är tränad för. OpenNLP-projektet erbjuder en rad olika förtränade modeller som har tränats på olika fritt tillgängliga korpusar. De kan laddas ner från sidan för nedladdning av mallar.
Källor
- ^ ”Apache OpenNLP - Building from Source” (på amerikansk engelska). https://opennlp.apache.org/building.html. Läst 5 januari 2025.
- ^ ”Apache OpenNLP - Language Detection Model” (på amerikansk engelska). https://opennlp.apache.org/models.html#language_detection. Läst 5 januari 2025.
- ^ ”Apache OpenNLP - Sentence Detection Models” (på amerikansk engelska). https://opennlp.apache.org/models.html#sentence_detection. Läst 5 januari 2025.
- ^ ”Apache Stanbol - OpenNLP POS Tagging Engine” (på amerikansk engelska). https://stanbol.apache.org/docs/trunk/components/enhancer/engines/opennlppos.html. Läst 5 januari 2025.