Aller au contenu

Simple Knowledge Organization System

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 13 avril 2013 à 09:08 et modifiée en dernier par Cyrille37 (discuter | contributions) (Références : De nombreux liens ne sont plus fonctionnels). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

SKOS ou Simple Knowledge Organization System (Système simple d'organisation des connaissances) est une famille de langages formels permettant une représentation standard des thésaurus, classifications ou tout autre type de vocabulaire contrôlé et structuré. Construit sur la base du modèle de données standard RDF, son principal objectif est de permettre la publication facile de vocabulaires structurés pour leur utilisation dans le cadre du Web sémantique. SKOS est, depuis le 18 août 2009, une recommandation du W3C.

Le développement de SKOS a impliqué des acteurs à la fois de la communauté RDF et des experts en Science de l'information. SKOS cherche à être au maximum compatible avec les standards tels ceux des thésaurus, monolingue ou multilingue[1].

Les représentations conceptuelles réalisées à l'aide de SKOS peuvent satisfaire des besoins de traitement restreints à un organisme, mais aussi, dans la perspective du Web sémantique, contribuer à la constitution d'une structure de concepts mis en commun et partagés à l'échelle du Web sous forme de ressource exploitable par les outils RDF ou autres.

Historique

SWAD Europe (2002-2004)

SKOS a d'abord été un produit du projet SWAD-Europe[2], un projet financé par la Communauté européenne, dans le cadre du programme Technologies de la Société de l'Information[3]. Le projet avait pour but de soutenir l'activité Web sémantique du W3C. Les premières publications de 'SKOS Core' et 'SKOS Mapping' datent de 2003, parmi d'autres livrables concernant par exemple l'encodage RDF des thésaurus multilingues[4] et les correspondances entre thésaurus[5].

Activité Web sémantique (2004-2009)

À la fin du projet SWAD-Europe, le travail sur SKOS a été relayé par l'activité Web sémantique du W3C[6] dans le cadre d'un groupe de travail sur les bonnes pratiques et le déploiement des standards RDF[7]. Pendant cette période, l'effort a porté sur la consolidation du noyau de SKOS, et le développement de conseils pratiques pour la migration et la publication de vocabulaires existants dans ce format.

Différents documents de travail ont été publiés pendant cette période dont on peut retrouver trace sur le site officiel de SKOS à la rubrique Historique des travaux du groupe de travail W3C SKOS[8]. Le mandat du groupe de travail a été étendu de Mai 2006 à Avril 2008 avec comme objectif d'atteindre le statut de Recommandation W3C[9].

Différentes versions de travail du document de référence ont été publiées entre 2005 et 2008 pour aboutir en août 2009, au document ayant statut de recommandation W3C[10]. Un document de travail SKOS Primer[11], est proposé en accompagnement du document de référence.

Les composants de SKOS

SKOS est conçu comme une famille modulaire et extensible de langages, de façon à permettre une utilisation aussi simple que possible.

SKOS RDF Schema SKOS définit les classes et propriétés suffisantes à la représentation des thésaurus standard. Conformément au point de vue « concept-centrique » du vocabulaire caractéristique de RDF, les objets primitifs ne sont pas des termes, mais des concepts abstraits dont les termes sont des propriétés.

Un « concept SKOS » est ainsi défini comme une ressource RDF, donc identifiée par une URI.

À chaque concept peuvent être attachés comme propriétés RDF :

  • au maximum un terme préférentiel par langue ;
  • des synonymes, avec spécification possible de la langue ;
  • des définitions et notes, avec spécification possible de la langue ;
  • des concepts par des relations « générique-spécifique », ou par des relations associatives, comme pour les termes d'un thésaurus.

Méthode de mise en œuvre ex-nihilo

Elémentairement, SKOS est conçu pour décrire une ressource conceptuelle en énumérant les caractéristiques de chacun des concepts qu'elle comporte : le concept[12] prend rang de sujet du triplet RDF et est déclaré comme concept par la valeur donnée à rdf:type : skos:Concept, comme dans l'exemple : <http://www.example.com/encyclopédie> rdf:type skos:Concept.

Le concept, une fois caractérisé comme tel, est associé à au moins une chaîne de caractère lexicale[13] le désignant dans le contexte d'utilisation ; des termes alternatifs (termes impropres ou en d'autres langues) complètent cette description linguistique (attributs : skos:prefLabel, skos:altLabel et skos:hiddenLabel).

Une fois un concept décrit par ces premiers attributs, il est explicité par ses relations à d'autres concepts à l'aide de la propriété skos:semanticRelation[14] et ses propriétés dérivées. De la même manière qu'au niveau des attributs précisant les termes, ces propriétés sont particulièrement prévues pour représenter les relations sémantiques au cœur des thésaurus (hiérarchiques avec skos:broader et skos:narrower, et non-hiérarchiques avec skos:related).

Ensuite, la propriété skos:note[15] et ses dérivées autorisent les compléments d'information rencontrés dans les thésaurus (portée, définition, historique, note, maintenance, etc.).

Deux autres propriétés permettent au besoin comme dans le cas des thésaurus, de décrire et d'organiser l'ensemble des concepts décrits en une structure de concepts skos:ConceptScheme[16] caractérisant la ressource comme une structure dont les concepts majeurs seront repérés à l'aide de skos:hasTopConcept.

Des collections de concepts[17] permettent de regrouper des concepts, d'établir des listes (skos:memberList) composés de membres (skos:member), voire de les ordonner (skos:OrderedCollections).

Description avec exploitation des structures de concepts existantes

SKOS étant basé sur la valorisation des relations de concepts, une seule propriété suffit à l'exploitation des structures de concepts elles-mêmes pour de nouvelles définitions de concepts et nouvelles structures : skos:ConceptScheme. Celle-ci fournit donc deux modes de description d'un concept à partir d'une structure rendue publique : soit par simple réutilisation d'un des concepts sans enrichissement, soit en créant un nouveau concept dont seules certaines caractéristiques seront données par référence à un des concepts de la structure.

Mise en correspondance

Les propriétés de mise en correspondance proposées dans SKOS[18] permettent d'exprimer des correspondances (alignements exacts ou correspondances approximatives) entre concepts provenant de schémas différents.

Les applications gérant des structures de concepts peuvent comparer les concepts et déclarer une identité de deux concepts par la propriété. Le schéma distingue une identité exacte skos:exactMatch (e. g. ex1:personne skos:exactMatch ex2:être humain) ou proche skos:closeMatch. Si la correspondance et la relation sont plus complexes, celles-ci sont exprimables par l'emploi d'un des trois attributs skos:broadMatch, skos:narrowMatch, skos:relatedMatch.

Relations avec les ontologies OWL

Les vocabulaires SKOS sont conçus pour être intégrés dans des environnements sémantiques utilisant d'autres vocabulaires RDF, comme par exemple le langage d'ontologie OWL. Ce dernier est conçu pour exprimer des structures conceptuelles complexes et riches (ontologies) supportant des fonctions logiques de contrôle de cohérence ou d'inférence. Toutefois, construire des ontologies utiles est un effort coûteux nécessitant un niveau d'expertise élevé. Dans beaucoup de cas où un tel effort est impossible ou inadapté, SKOS propose une voie économique et moins difficile de transition vers les technologies sémantiques. L'extensibilité inhérente à RDF rend possible une extension ultérieure ou une intégration des vocabulaires SKOS à des vocabulaires plus complexes, y compris des ontologies OWL.

Le document SKOS Reference[19] définit la classe skos:Concept comme une classe OWL (skos:Concept rdf:type owl:Class). OWL apparait donc comme le méta-modèle dans lequel sont définies les classes et propriétés du langage SKOS, et une instance de skos:Concept est au sens de OWL un "Individual". C'est une distinction essentielle entre une structure de concepts et une ontologie. La structure est destinée avant tout à faciliter une circulation cohérente dans un domaine et ses dimensions, alors que l'ontologie inventorie les types d'éléments (classes) qui peuvent y être rencontrés en fournissant de surcroît des informations sur les éléments individuels possibles (instances). Aussi, compte tenu de la proximité des moyens mis en œuvre (triplets RDF ; termes identiques ; hiérarchies homologues ; graphes ; etc.) dans les deux cas, il est important de limiter la confusion entre les deux modèles de données, chacun pouvant être légitimement exploité pour ses caractéristiques propres au sein d'une application mixte.

Exemples d'utilisation

Migration au format SKOS

Des vocabulaires de référence ont été migrés au format SKOS et sont disponibles au public.

  • Les premières versions historiques de SKOS ont été utilisées pour l'expression des thésaurus utilisés par le portail environnemental SWED[20] dans le cadre du projet SWAD-Europe, suivis des thésaurus multilingues AGROVOC publié par la FAO, et GEMET[21] publié par l'Agence européenne pour l'environnement.
  • La Bibliothèque du Congrès a publié son vocabulaire Library of Congress Subject Headings en SKOS[22] en mai 2009. Le vocabulaire peut être téléchargé librement, et chaque concept est défini par une URI conforme aux exigences de sa réutilisation dans le cadre du Web sémantique[23].
  • Le vocabulaire RAMEAU édité par la BNF a été porté en SKOS[24] dans le cadre du projet européen TelPlus[25], lui-même une brique du projet de bibliothèque numérique européenne Europeana. Dans ce même cadre ont été également migrés en SKOS le vocabulaire SWD de la Bibliothèque nationale allemande, et les correspondances entre ces deux vocabulaires et le LCSH.
  • Le Service interministériel des archives de France (SIAF) publie le Thésaurus pour la description et l'indexation des archives locales anciennes, modernes et contemporaines en XML/SKOS[26]. 4 collections sont téléchargeables librement : Contexte historique, Actions, Thésaurus-matières, Typologie documentaire.
  • IBM a développé l'utilisation de SKOS avec le standard DITA[27].
  • CSA/NBII Biocomplexity Thesaurus Web Services. Thésaurus de la biocomplexité et services Web associés.

Assistance sémantique à la recherche syntaxique

Avec SKOS, il est possible d'intégrer un thésaurus à un système d'information, au point de le rendre invisible aux utilisateurs. L'utilisateur bénéficie ainsi d'une assistance sémantique à la recherche syntaxique dans la base documentaire par une interface entre le vocabulaire utilisateur et le vocabulaire spécialisé (vocabulaire métier). Une mise en œuvre possible consiste à proposer de façon itérative les concepts clés du thésaurus SKOS en réponse aux mots clés choisis par l'utilisateur, éventuellement dans d'autres langues que la sienne ; une liste de mots clés affinée est ensuite soumise au système de recherche syntaxique[28].

Outils de gestion

- ThManager ThManager, un outil open source pour la création et la visualisation de vocabulaires SKOS RDF, une application Java Open Source
- PoolParty, un système de gestion de thésaurus à usage professionnel, incluant un éditeur SKOS, des fonctionnalités de fouille de textes et de liaison au Web des données
  • Lexaurus et Thesaurus Master de Data Harmony, deux systèmes de gestion de thésaurus proposent, entre autres formats de diffusion, SKOS.
  • Tematres, un outil web open source pour gérer des vocabulaires contrôlés, des taxonomies et des thesaurus multilingues. Permet un export complet au format SKOS-core en plus des formats Zthes, TopicMaps, MADS, Dublin Core, VDEX, BS 8723, SiteMap, SQL et texte.
  • TopBraid Enterprise Vocabulary Net (EVN), prend en charge de façon totalement intégrée, tous les attributs SKOS standard ainsi que les relations hiérarchiques, associatives et d'équivalence.
  • Modèles Microsoft Excel pour exporter des données en SKOS à partir de fichiers Excel structurés (version bêta).
  • Un plugin SKOS pour l'éditeur Protégé est également disponible.
  • Les fichiers SKOS peuvent être importés et édités dans des éditeurs RDF/OWL génériques tels que SWOOP[29].
  • Le site du W3C propose un service expérimental de validation en ligne[30].
  • SKOS Reader est un outil développé par la société Mondeca, permettant la visualisation et l'impression d'un fichier SKOS dans les formats classiques du thésaurus (liste alphabétique, liste permutée ...)

Références

  1. Normes de thésaurus monolingue ISO 2788:1986 et multilingue ISO 5964:1985
  2. Semantic Web Advanced Development for Europe
  3. Information Society Technologies
  4. SWAD-Europe Deliverable 8.3 : RDF Encoding of Multilingual Thesauri
  5. SWAD-Europe Deliverable 8.4 : Inter-Thesaurus Mapping
  6. W3C Semantic Web Activity
  7. W3C Semantic Web Best Practice and Deployment Working Group : Porting Thesauri Task Force
  8. Rubrique Historique des travaux du groupe de travail W3C SKOS
  9. SKOS: Requirements for Standardization. Communication de Alistair Miles, International Conference on Dublin Core and Metadata Applications, octobre 2006.
  10. SKOS Simple Knowledge Organization System Reference - W3C Recommendation 18 August 2009
  11. SKOS Simple Knowledge Organization System Primer - W3C Working Group Note 18 August 2009
  12. Concept dans SKOS
  13. Lexical Labels de SKOS
  14. Semantic relations de SKOS
  15. Documentation Properties
  16. Concept Schemes de SKOS
  17. Concept collections de SKOS
  18. Mapping properties de SKOS
  19. SKOS Reference dans la partie consacrée aux rapports entre SKOS et OWL
  20. Semantic Web Environmental Directory
  21. GEneral Multilingual Environmental Thesaurus
  22. LCSH Search and Download Service
  23. LCSH in SKOS on-line
  24. RAMEAU en SKOS
  25. Projet Européen TelPlus
  26. Thésaurus des Archives de France (version 2012)
  27. Subject classification using DITA and SKOS.
  28. Une application prototype dans l'industrie navale, voir Extraction et Gestion des Connaissances, 8èmes Journées Francophones, Sophia Antipolis, 29 janvier 2008.
  29. SWOOP, éditeur d'ontologie OWL développé par le Maryland Information and Network Dynamics Lab Semantic Web Agents Project
  30. SKOS Core Validation Service

Voir aussi

Liens internes

Liens externes