Hoppa till innehållet

Apache OpenNLP

Från Wikipedia
Version från den 10 januari 2025 kl. 13.55 av 141.7.125.29 (Diskussion) (Letzte Version aktualisiert (2.5.3))
Apache OpenNLP
UtvecklareThe Apache Software Foundation
Senaste utgåva2.5.3
(10 januari 2025)
Skriven iJava (programmeringsspråk)
Operativsystemmultiplattform
TypNaturlig språkbehandling
LicensApache Software License
Webbplatshttps://opennlp.apache.org/

Apache OpenNLP är en verktygslåda som utnyttjar maskininlärning för naturligt språk behandling (NLP). Den stöder de vanligaste uppgifterna inom NLP, till exempel språkdetektering, tokenisering, meningssegmentering, part-of-speech labelling, named entity extraction, chunking, parsing och coreference resolution. Dessa typer av uppgifter behövs vanligtvis för att utveckla mer avancerade textbehandlingstjänster.

Biblioteket är skrivet i Java och kan enkelt integreras i Java-projekt eller projekt som använder Java Virtual Machine (JVM)[1].

Detaljer

  • Språkidentifiering: "LanguageDetector" kräver en tränad modell. OpenNLP själv erbjuder den fullt utbildade modellen langdetect-183.bin som en nedladdning. Denna kan identifiera 103 språk.[2].
  • Meningsigenkänning: "SentenceDetector" känner igen om en punkt markerar slutet på en mening eller om den har en annan betydelse. Här krävs återigen specifikationen av en utbildad mall. OpenNLP tillhandahåller mallar för olika språk, t.ex. opennlp-sv-ud-talbanken-sentence-1.2-2.5.0.bin för igenkänning av meningar i svenska texter.[3]
  • Tokenisering: tokenizer delar upp en teckensträng i tokens. Tokens är vanligtvis ord, skiljetecken, siffror etc.
  • Part-of-speech labelling: OpenNLP har ett urval av förutbildade mallar för 32 språk (tyska, engelska, spanska, portugisiska, danska etc.). Dessa mallar kan användas för att automatiskt märka en textkorpus på ett av dessa språk.[4]
  • Extrahering av namngivna enheter: "TokenNameFinder" kan känna igen namngivna enheter och siffror i text. En mall krävs för att känna igen enheter. Modellen beror på språket och vilken typ av entitet den är tränad för. OpenNLP-projektet erbjuder en rad olika förtränade modeller som har tränats på olika fritt tillgängliga korpusar. De kan laddas ner från sidan för nedladdning av mallar.

Källor

Se även