Titre: Le web sémantique: de l'ingénierie des connaissances à un cadre opérationnel pour gérer ses données, les sélectionner pour l'apprentissage et capitaliser les résultats.
3 cas d'usage principal:
Gérer/préparer les données : Structurer, décrire, enrichir, fédérer les données. - avant l'apprentissage -
Accéder, Sélectionner ses données d'apprentissage à l'aide du web des données - pour l'apprentissage -
Capitaliser/Enrichir un graphe avec de nouvelles données (instances et classes) - pendant l'apprentissage -
Objectifs (en italique gras, les parties qui ne sont pas abordées dans le planning) :
Accéder et fédérer des sources de données
principes et intérêts du Linked Data (5-stars…)
production de données
RDF à partir de données hétérogènes légataires
production de données liées : liage d'instances, alignement d'ontologies
Structurer les données ⇒ indexation et recherche d'information (à préciser)
Vocabulaires
pour décrire un jeu de données (métadonnées) : producteur, formats, provenance, unités, outils utilisés, moyens d'accès etc.
pour annoter de données existantes (e.g. Web Annotation Vocabulary)
pour formaliser les activités d'analyse (préciser ce que cela recouvre) (Franck Cotton, INSEE)
de statistique
d'utilisation des données (Franck Cotton) (préciser ce que cela recouvre)
pour décrire un service de traitement/analyse/apprentissage, une chaîne de traitement (workflows, composition des services), et annoter les données produites (provenance)
Comment spécifier et utiliser des infra de recherche?) BPMN semantique ? à préciser
Interopérabilité entre le web sémantique et les outils d'analyse (R, python composant web semantique ?)
Interrogation des entrepôts
RDF.
Interrogation et enrichissement des graphes avec une phase d'apprentissage. A garder pour le jour 3 ? RD : je serais pour. La description des étapes de cet enrichissement est stratégique pour permettre une transition réaliste
09h00-10h00 : Introduction à l'Ingénierie des Connaissances, ses usages, ses intérêts : web des données, données liées, ontologies, aperçu des standards du web sémantique (
RDF/RDFS/OWL/SPARQL). Liage d'instances, alignement d'ontologies
(serait mieux dans une session séparée).
Franck Michel.
10h00-10h45 : Décrire ses données par l'utilisation/extension de vocabulaires génériques, créer des ontologies de domaine. Nathalie Hernandez.
Les métadonnées servent à décrire/structurer/indexer les données et les contenus. Il importe de partager des vocabulaires communs de métadonnées entre les disciplines pour faciliter l'utilisation des données dans des contextes interdisciplinaires. Peut-on étendre le Dublin Core ? Comment s'y prend-on ? Quels sont les vocabulaires, les initiatives ? Comment agréger des vocabulaires autour du Dublin Core (pour décrire des images, des séries temporelles, des informations de localisation, …) ? Quelles recommandations suivre ? Comment faire du sens à partir de l'existant ? Un panel de l'existant sera présenté: schema.org (annotation massive des pages web) et ses extensions possibles comme Bioschemas.org, catalogue des vocabulaires (LOV, BioPortal, AgroPortal, ontobee), … Illustrations utilisant JSON-LD, RDFa, micro-data, micro-format.
11h15-11h35 : Les vocabulaires pour décrire les jeux de données et les catalogues (VOID, HCLS, DCAT, schema.org), les outils pour les publier (data.gouv.fr, portails CKAN…) . Franck Michel.
11h35-12h00 : Comment annoter sémantiquement des données existantes.
Nathalie Hernandez.
Il s'agit ici de faire le point sur comment des méta-données peuvent être associées à des données publiées sur le web (données légataires hétérogènes) pour y ajouter de la sémantique. Par exemple les vocabulaires d'annotations seront étudiés tels que le “Web annotation vocabulary”, ou CSV-on-the-Web/JSON-LD qui permettent d'interpréter un document CSV/JSON comme un graphe RDF.
REX de l'approche sémantique à l'observatoire de la biodiversité Littoral Environnement et Sociétés (LIENSs), UMR 7266. Christine Plumejeau & julien.ancelin@inra.fr ? ⇒ vers J3 ou J4
Apprentissage automatique pour l'ingénierie des connaissance : construction de d'ontologie à partir de ressources textuelles. Catherine Faron.
15h30-16h00 : Interrogation/exploitation d'entrepôts
RDF à partir des outils d'analyse (Python, R, ENTC, datalift-R, ….).
Laurent Risser ? ⇒ J4
16h00-16h45 : Description sémantique d'un service de traitement/analyse/apprentissage et comment composer les services ? (SOA sémantique).
Traçabilité/provenance des données avec
PROV-O,
actions schema.org.
Alban Gaignard.
Comment les infras se saisissent de la problématique de l'ouverture des données, de l'apprentissage (IFB, huma-num, FLI)
15 ans d'ontologies Top Down ( Dublin Core, etc.) versus 3 ans d'ontologie collaborative avec Wikidata - Karima Rafes
introduction puis Table ronde Approche collaborative ou normative pour créer les ontologies de la recherche?
15 ans d'ontologies Top Down ( Dublin Core, etc.) versus 3 ans d'ontologie collaborative avec Wikidata.
Le point de vue de l'ontologu et du thématicien -
⇒ sous-thème: l'agrégation des données variées et inter-disciplinaires. -
Karima Rafes
* 0h40 :** - REX - Exploration et visualisation des données (définition du jeu de données/mise en oeuvre du web sémantique) - Franck Cotton / INSEE (ESAN - statistiques d'entreprise)