Ir al contenido

General Architecture for Text Engineering

De Wikipedia, la enciclopedia libre

Esta es una versión antigua de esta página, editada a las 00:00 6 feb 2011 por Rodamaker (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.

GATE

ventana principal de GATE Developer v5
Información general
Tipo de programa Minería de textos, Extracción de la información
Desarrollador GATE research team, Dept. Computer Science, University of Sheffield
Lanzamiento inicial 1995
Licencia LGPL
Idiomas Inglés
Información técnica
Programado en Java
Plataformas admitidas máquina virtual Java
Versiones
Última versión estable 5.2.1 (info) (06 de mayo de 2010 (15 años, 2 meses y 17 días))
Última versión en pruebas 6.0.0 (04 de febrero de 2011 (14 años, 5 meses y 19 días))
Enlaces

General Architecture for Text Engineering o GATE es una suite de herramientas Java desarrolladas en la Universidad de Sheffield, que comenzó en 1995 y hoy es usada por una amplia comunidad de científicos, compañías, profesores y estudiantes para tareas de Procesamiento de lenguajes naturales (PLN o NLP) de todo tipo, incluyendo Extracción de la información, en varios idiomas.

GATE tiene como objetivo eliminar la necesidad de resolver problemas comunes de ingeniería antes de hacer investigación útil, o reingeniería de procesos antes de convertir los resultados de la investigación en aplicaciones. Las funciones principales de GATE cuidan de su parte del león de la ingeniería:

Además de las funciones principales, GATE incluye componentes para tareas de procesado de idiomas naturales, p.ej. [[Analizador sintáctico |análisis sintáctico (parse)]], morfología, etiquetado, herramientas de recuperación de información, componentes de extracción de información para varios idiomas, y muchos otros. Ha sido ampliamente empleado en campos como la bioinformática[2]​ y otros. GATE Developer y GATE Embedded se lanzan con un sistema de extracción de información (ANNIE) que ha sido adaptado y evaluado ampliamente (sistemas industriales, sistemas de investigación en MUC, TREC, ACE, DUC, Pascal, NTCIR, etc.). ANNIE también se usa para crear metadatos RDF u Web Ontology Language (OWL) (metadata) para contenido sin estructurar (semantic annotation). GATE has been compared to NLTK, R y RapidMiner.[3]​ Además forma la base de la plataforma semántica KIM.[4]

La comunidad GATE se ha visto involucrada en varios proyectos de investigación europea tales como TAO, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS y KnowledgeWeb, así como otros proectos.

Características

GATE incluye[5]​:

También incluirá lo siguiente, que se encuentra bajo desarrollo:

Los idiomas soportados actualmente incluyen: inglés, español, chino, árabe, francés, alemán, hindi, italiano, cebuano, rumano, ruso.

Se incluyen plugins para aprendizaje automático con (Weka, RASP, MAXENT, SVM Light, así como integración LibSVM e implementación perceptron implementation, for managing Ontologies like WordNet, for querying search engines like Google or Yahoo, for part of speech tagging with Brill or TreeTagger, and many more.

GATE can handle input in various formats, such as TXT, HTML, XML, Doc, PDF documents, and Java Serial, PostgreSQL, Lucene, Oracle Databases with help of RDBMS storage over JDBC.

It also uses the JAPE (Java Annotation Patterns Engine) language for building rules in order to annotate documents with tags. JAPE stands for "Java Annotation Patterns Engine". JAPE provides finite state transduction over annotations based on regular expressions. JAPE is a version of CPSL – Common Pattern Specification Language. JAPE transducers are used within GATE to manipulate annotations on text. Documentation is provided in the GATE User Guide.[7]​ A tutorial has also been written by Press Association Images.[8]

GATE Developer

GATE Developer is the GATE graphical user interface. It is analogous to systems like Mathematica for mathematicians, or Eclipse for Java programmers,[9]​ providing a convenient graphical environment for research and development of language processing software. As well as being a powerful research tool in its own right, it is also useful in conjunction with GATE Embedded (the GATE API by which GATE functionality can be included in applications); for example, GATE Developer can be used to create applications that can then be embedded via the API.

Ventana principal de GATE 5

The GATE Developer GUI consists of a top menu and row of icons, a left vertical resources tree, a central-right tabbed pane of the resource viewers and a message field at the bottom.

The resources tree and the menu are use to load, save and run resources. The resources tree display the loaded resources and allows to show a resource in a resource viewer by double-clicking on it or pressing Enter key.

Each loaded resource can be displayed in a specific resource viewer that take most of the space in the GUI.

Here you can see the document viewer use to display a document and its annotations. In pink are <A> hyperlink annotations from an HTML file. The right list is the annotation sets list and the bottom table is the annotation list. In the center is the annotation editor window.

GATE Teamware

Teamware es una plataforma basada en web para curación y notación colaborativa. GATE Teamware entrega una interfaz de usuario multifunción sobre la Internet para visionado, adición y edición de anotaciones textuales. La interfaz de manejo basada en web permite realizar las siguientes funciones de puesta en marcha y gestión de proyectos:

  • Carga de colecciones de documentos ("corpus” o “corpora”)
  • Creación de plantillas reutilizables de proyectos
  • Inicio de proyectos en base a plantillas
  • Asignación de roles de proyectos a usuarios específicos
  • Monitorización de progreso y estadísticas en tiempo real
  • Reportes (informes) del estado del proyecto, actividad del anotador y estadísticas
  • Aplicación de rutinas de proceso basadas en GATE (procesamiento de anotaciones automáticas o proceso de post-anotación)

Véase también

Referencias

  1. Adapting SVM for Data Sparseness and Imbalance: A Case Study on Information Extraction. Journal Of Natural Language Engineering 2009 (Y. Li, K. Bontcheva and H. Cunningham)
  2. "Combining Biological Databases and Text Mining to Support New Bioinformatics Applications", by René Witte and Christopher J.O. Baker (in "Lecture Notes in Computer Science, Springer Berlin, Volume 3513, 2005)
  3. "Open Source Text Analytics" web article by Seth Grimes
  4. "KIM – a semantic platform for information extraction and retrieval", by Popov et al (Natural Language Engineering (2004), 10:375-392)
  5. GATE Family page on the GATE website
  6. GATE Wiki
  7. JAPE chapter in the GATE User Guide
  8. A JAPE tutorial from Press Association Images, UK
  9. GATE Developer chapter in the GATE User Guide

Enlaces externos