Objectifs: Étudier les nouvelles perspectives et l'apport croisé des technologies du web des données et de la recherche par les données, pour la construction d'éco-systèmes pour la science ouverte. Le fil conducteur de cette action sera le support à l'utilisateur pour l'accès aux ressources, le processus de traitement et d'analyse des données, et la mise en place de chaines de traitement pour l'apprentissage automatique.
Cette action fait suite à l'édition APSEM 2018
MOTS-CLEFS :
Support à l'utilisateur
Eco-système pour l'analyse et l'apprentissage automatique profond
Recherche par les données
Science ouverte et reproductible
EVR
E-infrastructure
De plus en plus de données sont disponibles et la recherche par les données connaît un intérêt croissant dans un objectif de valorisation ou de réutilisation des données dans de très nombreux domaines.
Lors de l'édition APSEM 2018, nous avons étudié l'apport croisé et l'intérêt de l'apprentissage automatique et du web des données pour conduire une analyse.
Conduire une analyse valide nécessite une grande expertise mathématique et informatique. Les experts en science des données sont rares en rapport aux besoins.
La mise en place d'un environnement opérationnel, facilement accessible et utilisable par le plus grand nombre est également un fort enjeu.
Il importe de pouvoir:
Faciliter l'accès et le partage des ressources entre utilisateurs (données, codes, calcul, expérimentations, services, configurations,…) (principes FAIR)
Faciliter l'activité des experts.
Rendre possible la conduite d'analyses de données valides par des acteurs moins expérimentés.
Offrir des capacités d'analyse des données au plus grand nombre.
Faciliter la formation des individus et des communautés.
Nous étudierons le support à l'utilisateur dans le processus de traitement et d'analyse des données, et dans le processus d'apprentissage automatique. Cette étude se fera sous différents angles :
Constitution et utilisation d’éco-systèmes composés d’e-infrastructures et d’environnements de recherche virtuels.
Apports du web des données à la construction de ces éco-systèmes.
Environnements de travail pour la convergence de l'apprentissage automatique et de l’ingénierie des connaissances.
Système de gestion, d'aide et/ou de recommandation pour l'élaboration de processus d'analyse.
Plus spécifiquement, les les aspects suivants seront abordés :
panorama des écosystèmes technologiques pour la science des données
outils et méthodes de l'apprentissage ;
outils de structuration sémantique des données, le web sémantique et ingénierie des connaissances;
apports croisés
usages et communautés de recherche
architecture des services d’e-infrastructure et fonctionnalités des environnements virtuels de recherche pour les scénarios d’usages des laboratoires.
Cycle de vie de la donnée
Accès aux calculs et aux référentiels de ressources
Traçabilité des calculs et des ressources numériques dans une perspective de science ouverte
Intégration des technologies de l’intelligence artificielle, de la reconnaissance des formes et de l'ingénierie des connaissances
Christophe Baehr - CNRS/CNRM
Romain David - INRAE
Pascal Dayre - CNRS/IRIT
Dominique Desbois - INRAE
Etienne Gondet - CNRS/OMP
Alban Gaignard - CNRS
Franck Michel - CNRS
Christophe Biernacki - INRIA
Attention ce programme est provisoire et susceptible d'évoluer.
Objectifs: expliciter le processus d'analyse des données et la validation des résultats. Nous nous intéresserons aux recommandations pour mener correctement une analyse, de la préparation des données à la validation voire à l'explicabilité des résultats.
Mots clé: cycle de vie de la données et de leur préparation pour l'analyse, l'apprentissage et l'IA, traçabilité (PROV-O). Formalisation du processus et base de données des traces d'apprentissage
Programme :
09H15-10h00 - Accueil
10H00-10h30 - Présentation de l'action et des participants
10H30-11h30 - le Processus d'analyse et la validation des résultats -
Sébastien Déjean / IMT
pdf
11h30-12h30 - Présentation des concepts de l'Analyse des données symboliques et de ses développements récents Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science -
Edwin Didaypdf
12h30-14h00 - Repas
14h00-15h00 - Interprétabilité de modèles boites-noires en Apprentissage Machine -
Laurent Risser /
IMT /
ANITI et
Ronan Pons (doctorant ANITI)
Cette présentation portera sur les problématiques et les solutions récentes liées à l'interprétation des décisions prises par des modèles boites-noires en Apprentissage Machine. Ces problématiques sont d'autant plus critiques en France que le RGPD a rendu obligatoire l'an dernier le fait de pouvoir expliquer ce type de décisions en cas de discrimination potentielle. Au delà des aspects techniques, les aspects sociétaux et légaux liés à cette problématique seront évoqués.
15h00-15h40 - Formalisation du processus d'analyse et traces de provenance - Franck Michel, Alban Gaignard et Pascal Dayre
Formalisation es traitements et du processus d'analyse? - Pascal Dayre
pdf
Reproducibility and reuse in data-driven sciences: from provenance to summaries - Franck Michel et Alban Gaignard
pdf
15h40-16h00 - retour d’expérience: La problématique de la provenance dans le domaine du phénotypage haut débit - Romain David - INRA
16h00-16h30 Café
16h30-17h00 Table de ronde sur la formalisation du processus d'analyse
Objectifs: nous nous intéresserons à tous les aspects pouvant aider l'utilisateur dans sa démarche de recherche par les données: le format des données pour leur exploitation par des algorithmes d'IA, la maîtrise de son environnement de travail, le suivi de ses travaux, la socialisation des expérimentations dans une communauté par le partage des traces et des bases d'apprentissage voire le parallèle avec les EIAH, le support à l'utilisateur, les systèmes de recommandation et d'aide à la décision, ergonomie.
Mots clés: framework, format de données, trace, base d'apprentissage, scénario, trace, support à l'utilisateur, systèmes de recommandation
Programme :
09h00-09h15 - Introduction Données de la recherche, approche itérative de la recherche et socialisation - Pascal Dayre - CNRS/IRIT
09h15-09h30 - poster DataNoos - Michelle Sibilla - IRIT
09h30-09h45 - poster Identifying, naming and interoperating data in a Phenotyping platform network : the good, the bad and the ugly - Romain David - INRA
09h45-10h00 - poster Atelier données Groupe inter-réseaux -
Dominique Desboispdf
10h00-10h15 - poster SO-DRIIHM - promoting open science within the labex - improving its research data infrastructure - Emilie Lerigoleur - CNRS/GEODE
10h15-10h40 - Pause café
10h40-11h00 - Comment gérer et publier des données en open access selon les principes FAIR ? Retour d'expérience et perspectives - Emilie Lerigoleur - CNRS/GEODE
11h00-11h30 - Retour d'expérience sur les data papers du
GBIF -
Sophie Pamerlon - UMS Patrimoine Naturel pdf video
11h30-12h15 - plateformes Big data - principes, usages et architectures -
Sami Yangui -
LAAS
12h15-14h00 - Repas
14h00-14h30 - Publier ses expériences d’apprentissage dans une base ouverte (chaînes de traitement, paramètres, données, résultats).
cf. openML -
Pascal Dayre - CNRS/IRIT
14h30-15h15 - Les systèmes de recommandation / Aide à la décision, principes généraux -
Julien Aligon /
IRIT
15h15-15h45 - Café
15h45-16h15 - Application des systèmes de recommandation aux chaînes de traitement et à l'apprentissage -
Gabriel Ferretini /
IRIT
-
16h30-17h00 - Atelier et discussions - Usages et besoins en science des données ouverte
ou encore les ENT / ERV / VRE (Virtual Research Environment)
Objectifs: nous nous intéresserons ici aux couches d'intermédiation des utilisateurs, aux frameworks d'analyse et d'apprentissage automatique et à leur intégration dans les VRE (Environnement Virtuelle de Recherche).
Mots clés: framework, VRE (Environnement Virtuelle de Recherche), source de données, service de traitement dans le CLOUD, sémantisation
Programme:
09h00-09h30 - Petit tour d'horizon et comparatif des VREs -
Yvan Le Bras / MNHN pdf video
09h30-10h00 - Retour d'expérience sur Google earth engine -
Simon Gascoin - CESBIO
pdf video
10h00-10h45 -
Pangeo : a community platform for Big Data (geo)science. Qu’est-ce que Pangeo et les cas d’utilisation scientifiques-
Guillaume Eynard-Bontemps / CNES
10h45-11h00Pause café
11h00-11h45 - Les VRE pour la recherche participative - Yvan Le Bras / MNHN
11h45-12h30 Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science -
Edwin Diday
12h30-14h00 - Repas
14h00-14h30 - la
plateforme web MASSICCC pour classifier des données complexes (mixtes, manquantes, fonctionnelles, haute dimension) - Pr. Christophe Biernacki, math.univ-lille1.fr/~biernack ; responsable scientifique de l'équipe MODAL (modal.lille.inria.fr)
pdf
-
15h00-15h25 - Café
15h25-15h45 - Composition de service de traitement de données - Emmanuel Courcelle / Centre calcul Calmip)
15h45-16h25 - Atelier et discussions - Les fonctionnalités attendues des VRE et constitution d'un groupe pour rédiger un livre blanc
16h25-17h00 - Discussion Intégrations des ressources et middleware/intergiciel et frameworks dans les VRE
Objectifs:
Les plateformes de big data se développent mais sont souvent synonymes de solutions centralisées. Nous nous intéresserons ici aux solutions ouvertes et distribuées que sont les éco-systèmes pour la science ouverte intégrant : des e-infrastructures pour l'hébergement des données et fournissant un socle de services de traitement, et les couches d'intermédiations que sont les EVR (Environnement Virtuel de Recherche).
Nous sommes à la convergence entre calcul et données, et HPC et cloud.
Nous avons d'un côté des centres de calcul et de l'autre des e-infrastructure de données.
Allons-nous vers une architecture centralisée sous la forme d'une solution intégrée et bornée type plateforme ?
Ou bien allons-nous vers des architectures distribuées, évolutives, basées sur des standards ouverts, des e-infrastructures et des socles de calcul pour le backbone/“back office”, et des VRE pour le “front office” assurant l’intermédiation pour l'accès aux services de traitement et d'analyse des données ?
Nous nous poserons également comme question lors de ces journées la mise en place de ces éco-systèmes, de l'offre des GAFAM tel que Google Earth Engine à des environnements co-construits par des communautés utilisatrices comme celle des sciences de la terre avec Pangeo.
Nous nous intéresserons également à l'apport du web sémantique dans ces solutions.
Mots clés: éco-systèmes, communautés, e-infrastructures, services de données, services de calcul, communauté, big data, IA, CLOUD, EOSC.
Programme provisoire: