Vai al contenuto

Predictive Model Markup Language

Da Wikipedia, l'enciclopedia libera.

Il Predictive Model Markup Language (PMML) è un linguaggio di markup basato su XML sviluppato dal Data Mining Group (DMG) per dare modo alle applicazioni di: definire modelli collegati all'analisi predittiva, al Data Mining e condividere modelli tra applicazioni.

PMML fornisce un metodo, indipendente dal distributore, di definizione di modelli, in modo tale che questioni proprietarie e incompatibilità non sono più barriere per lo scambio di modelli tra applicazioni.

Esso consente agli utenti di sviluppare modelli in una applicazione e usarne altre per visualizzarli, analizzarli e valutarli. Prima, questo era molto difficile, ma con PMML, lo scambio di modelli tra applicazioni è diventato semplice.

Da quando PMML è uno standard basato su XML, le specifiche sono XML Schema.

Componenti PMML

PMML segue una struttura intuitiva per descrivere un modello di data mining, che sia esso un modello di rete neurale o un modello di regressione logistica.

La struttura può essere descritta dai seguenti componenti:[1][2]

  • Header: contiene informazioni generali circa il documento PMML, come informazioni sul copyright del modello, sua descrizione e informazioni riguardo l'applicazione (nome e versione) usata per generarlo. Contiene anche un attributo di tipo timestamp il quale può essere usato per specificare la data della creazione del modello.
  • Data Dictionary: contiene le definizioni di tutti i possibili campi usati dal modello. Qui è definito il campo come continuo, categorico o ordinale (attributo optype). Da questa definizione dipende l'appropriata valutazione del range che è definito dopo il tipo di dato (come string e double).
  • Data Transformations: trasformazioni che consentono il mappaggio di dati in diverse forme, per essere usate dal modello di mining. PMML definisce cinque trasformazioni:
    • Normalization: mappa i valori a numeri, l'input può essere continuo o discreto.
    • Discretization: mappa valori continui in valori discreti.
    • Value mapping: mappa valori discreti in valori discreti.
    • Functions: deriva un valore dall'applicazione di una funzione con uno o più parametri.
    • Aggregation: usata per sintetizzare o collezionare gruppi di valori.

References

  1. ^ A. Guazzelli, M. Zeller, W. Chen, and G. Williams. PMML: An Open Standard for Sharing Models. The R Journal, Volume 1/1, May 2009.
  2. ^ A. Guazzelli, W. Lin, T. Jena (2010). PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics. CreateSpace.