Table des matières

T8.GT1 Publication de données sur le web des données: retour d'expériences

Ne plus utiliser l'Etherpad, tout est reversé ici merci de changer ou de s'adresser au coordinateur pour faire des changements

retour sur la Thématique 8
retour au programme


Thème : Publication de données : besoins et retour d'expérience

Motivation : Nos institutions sont productrices de données. Que ce soit de données résultant de l'activité scientifique (obtenues via l'expérimentation) ou des données de support (données bibliométriques par exemple). Il est de plus en plus utile de diffuser ces données pour des raisons de transparence et de reproductibilité en particulier. La diffusion de données devrait donc prendre une place importante dans les futures activités de support à la recherche. Au delà de la diffusion, la mise en valeur de ces données devrait déterminer le succès de l'approche. En effet, publier des données n'a de sens que si ces données sont exploitées. Cette exploitation peut avoir lieu à plus ou moins long terme. C'est pourquoi il est nécessaire de publier ses données sous une forme qui soit le plus exploitable possible.

L'animateur défendra sûrement l'approche nommée données liées ouvertes (linked open data) qui réutilise les technologies du web sémantique pour diffuser des données de manière plus facilement utilisables. Elle permet d'atteindre les objectifs cités ci-dessus car elle est ouverte, fondée sur des standards et supportée par des logiciels.

C'est pour cela que nous avons deux ateliers aux JDEV 2013 sur :

Ces deux ateliers couvrent les deux faces producteur/consommateur de l'utilisation des données.

Le but du groupe de travail est d'envisager l'activité de publication de données au travers d'exemples, de besoins, de questions et si possible de retour d'expérience. Le format est assez ouvert et le groupe de travail sera fructueux si vous participez.


Programme (90mn)

L'organisation a été très interactiven'est pas figée. Nous sommes parti de la description type donnée par les organisateur des JDEV mais les avons adapté aux demandes de la salle très active. Le groupe de travail s'est déroulé ainsi:


Participants

Petit sondage sur les participants

Le groupe avait un bon mélange de personnes travaillant dans des laboratoires de sciences “naturelles”, de sciences humaines et sociales et des “sciences de l'ingénieur”. Quelques personnels du domaine des bibliothèques aussi.


Compte Rendu

Points éventuellement utiles à discuter (liste établie au préalable)

Intérêt du web des données

Deux types de données qui sont diffusées :

Il faut adopter les technologies du web sémantiques le plus tôt possible

Brève introduction à RDF (Jérôme Euzenat)

Présentation du RDF: modèle de de données de graphe qui permet de reproduire le modèle du web avec des pages et des liens entre pages de sites différents

Démo du site de la de la bnf : data.bnf.fr

Exemple : fiche de Baudelaire : http://data.bnf.fr/11890582/charles_baudelaire/ - - liens croisés vers d'autres données, par ex viaf (= liste d'autorité), idref, wikipedia. Pour viaf, lien entre http://data.bnf.fr/11890582/charles_baudelaire/ et http://viaf.org/viaf/17218730

On peut lire les URI via le protocole http pour avoir du html ou demander à avoir le code rdf (sous unix: curl -I -H “Accept: application/rdf+xml” http://viaf.org/viaf/17218730)

Utiliser le “sameAs” pour faire des relations entre les données Mais s'appuyer sur des autorités.

Si besoin, faire la liste d'autorité (par ex, construire la liste d'autorité des revues).puis “same as” pour relier avec les autres listes. Comment on se fait connaître quand on publie des données : il existe des annuaires comme http://datahub.io/. Sinon, c'est grâce au web qu'on peut se faire connaître.

Exemple de requête SPARQL : http://wimmics.inria.fr/projects/dbpedia/doc/index.php/Examples_SPARQL

Présentation d'une application de difusion de donnée bibliographique au LIMSI (Elisabeth Piotelat)

Le LIMSI a développé une application php/mysql permettant de déposer des rapports de stage comme des articles publiés dans des revues internationales.

On y a rencontré des problèmes avec structuration imposée par l'AERES: Dans un labo comme le LIMSI, les différentes communautées ont eu du mal à se mettre d'accord sur une classification commune. Proposer cet outil à d'autres laboratoire risque de se heurter au même écueil. L'un des avantages de l'utilisation de RDF est qu'il est toujours possible d'étendre les modèles ou d'en ignorer des parties, contrairement à ce qui se passe dans les SGBD où étendre le schéma n'est pas simple.

Présentation de fr.dbpedia.org (Julien Cojan)

dbpedia(http://dbpedia.org/About), version francaise : http://fr.dbpedia.org) est un “extrait” de WikiPédia, à partir du titre, des infobox, catégories, titre, lien, etc. basé sur le moteur Virtuoso (version opensource) pour l'édition française. WikiPédia est un silo de données plutôt bruité, qui nécessite un certain nettoyage. Ce nettoyage nécessite d'être uniformisé à travers les langues, et consiste surtout en un “alignement”: “birthday” dans un nouvel espace de nom, pour “date de naissance”, “naissance”, et autres occurrences possibles. Page de Baudelaire : http://fr.dbpedia.org/page/Charles_Baudelaire. Wikidata, nouveau projet où on part des données, avec les données qui sont sourcées

Questions/Réponses

Q: Comment faire pour obtenir d'autorités “naturelles” qu'elles mettent à disposition des vocabulaires?

Ne pas hésiter à contacter des autorités pour leur demander s'ils peuvent publier les données concernant les projets européens (ex: contacter la communauté européenne pour exposer via CORDIS les projets européens). On peut aussi exposer ses données et les relier plus tard à des données exposées par des autorités. Il ne faut pas attendre que toutes les données nécessaires soit exposées par des autorités avant d'exposer les siennes

Q: Quel est l'intérêt de publier ses données scientifiques peu structurées, si pas de listes d'autorités ou peu de liens?

C'est utile pour faire des croisements. On ne sait pas toujours à l'avance à quoi vont servir les données.

Q. que se passe t'il si on perd un noeud?

Rien … l'URI est un identifiant, même si on perd le lien (la référence n'est plus déréférencable), on garde l'identifiant, qui peut s'échanger avec autrui.

Ressources

Présentation de RDF

Transparents utilisés par Jérôme Euzenat: Introduction aux données liées

Le site sur lequel on a fait les démos est celui de la BNF: http://data.bnf.fr

Un autre exemple cité dans la plénière: http://bio2rdf.org

A propos de DBpedia

Annuaires d'ontologies et de sources de données

Bilan de la discussion