APSEM2019 : éco-systèmes pour la science ouverte et recherche par les données

Objectifs: Étudier les nouvelles perspectives et l'apport croisé des technologies du web des données et de la recherche par les données, pour la construction d'éco-systèmes pour la science ouverte. Le fil conducteur de cette action sera le support à l'utilisateur pour l'accès aux ressources, le processus de traitement et d'analyse des données, et la mise en place de chaines de traitement pour l'apprentissage automatique.

Cette action fait suite à l'édition APSEM 2018

MOTS-CLEFS  :

  • Support à l'utilisateur
  • Eco-système pour l'analyse et l'apprentissage automatique profond
  • Recherche par les données
  • Science ouverte et reproductible
  • EVR
  • E-infrastructure

Constat

De plus en plus de données sont disponibles et la recherche par les données connaît un intérêt croissant dans un objectif de valorisation ou de réutilisation des données dans de très nombreux domaines.

Lors de l'édition APSEM 2018, nous avons étudié l'apport croisé et l'intérêt de l'apprentissage automatique et du web des données pour conduire une analyse.

Conduire une analyse valide nécessite une grande expertise mathématique et informatique. Les experts en science des données sont rares en rapport aux besoins.

La mise en place d'un environnement opérationnel, facilement accessible et utilisable par le plus grand nombre est également un fort enjeu.

Il importe de pouvoir:

  • Faciliter l'accès et le partage des ressources entre utilisateurs (données, codes, calcul, expérimentations, services, configurations,…) (principes FAIR)
  • Faciliter l'activité des experts.
  • Rendre possible la conduite d'analyses de données valides par des acteurs moins expérimentés.
  • Offrir des capacités d'analyse des données au plus grand nombre.
  • Faciliter la formation des individus et des communautés.

Objectifs scientifiques et techniques

Nous étudierons le support à l'utilisateur dans le processus de traitement et d'analyse des données, et dans le processus d'apprentissage automatique. Cette étude se fera sous différents angles :

  • Constitution et utilisation d’éco-systèmes composés d’e-infrastructures et d’environnements de recherche virtuels.
  • Apports du web des données à la construction de ces éco-systèmes.
  • Environnements de travail pour la convergence de l'apprentissage automatique et de l’ingénierie des connaissances.
  • Système de gestion, d'aide et/ou de recommandation pour l'élaboration de processus d'analyse.

Plus spécifiquement, les les aspects suivants seront abordés :

  • panorama des écosystèmes technologiques pour la science des données
  • outils et méthodes de l'apprentissage ;
  • outils de structuration sémantique des données, le web sémantique et ingénierie des connaissances;
  • apports croisés
  • usages et communautés de recherche
  • architecture des services d’e-infrastructure et fonctionnalités des environnements virtuels de recherche pour les scénarios d’usages des laboratoires.
    • Cycle de vie de la donnée
    • Accès aux calculs et aux référentiels de ressources
    • Traçabilité des calculs et des ressources numériques dans une perspective de science ouverte
    • Intégration des technologies de l’intelligence artificielle, de la reconnaissance des formes et de l'ingénierie des connaissances

Comité d'organisation

  • CNRS (MITI/DEVLOG)
  • INRAE (L'organisation se fait avec le soutien d'Ingenum)
  • ENSEEIHT

Comité de programme

  • Christophe Baehr - CNRS/CNRM
  • Romain David - INRAE
  • Pascal Dayre - CNRS/IRIT
  • Dominique Desbois - INRAE
  • Etienne Gondet - CNRS/OMP
  • Alban Gaignard - CNRS
  • Franck Michel - CNRS
  • Christophe Biernacki - INRIA

Programme

Attention ce programme est provisoire et susceptible d'évoluer.

J1: Le processus de traitement et d'analyse des données, et le processus d'apprentissage automatique

  • Objectifs: expliciter le processus d'analyse des données et la validation des résultats. Nous nous intéresserons aux recommandations pour mener correctement une analyse, de la préparation des données à la validation voire à l'explicabilité des résultats.
  • Mots clé: cycle de vie de la données et de leur préparation pour l'analyse, l'apprentissage et l'IA, traçabilité (PROV-O). Formalisation du processus et base de données des traces d'apprentissage

Programme :

  • 09H15-10h00 - Accueil
  • 10H00-10h30 - Présentation de l'action et des participants
  • 10H30-11h30 - le Processus d'analyse et la validation des résultats - Sébastien Déjean / IMT pdf
  • 11h30-12h30 - Présentation des concepts de l'Analyse des données symboliques et de ses développements récents Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science - Edwin Didaypdf
  • 12h30-14h00 - Repas
  • 14h00-15h00 - Interprétabilité de modèles boites-noires en Apprentissage Machine - Laurent Risser / IMT / ANITI et Ronan Pons (doctorant ANITI)
    Cette présentation portera sur les problématiques et les solutions récentes liées à l'interprétation des décisions prises par des modèles boites-noires en Apprentissage Machine. Ces problématiques sont d'autant plus critiques en France que le RGPD a rendu obligatoire l'an dernier le fait de pouvoir expliquer ce type de décisions en cas de discrimination potentielle. Au delà des aspects techniques, les aspects sociétaux et légaux liés à cette problématique seront évoqués.
  • 15h00-15h40 - Formalisation du processus d'analyse et traces de provenance - Franck Michel, Alban Gaignard et Pascal Dayre
    • Formalisation es traitements et du processus d'analyse? - Pascal Dayre pdf
    • Reproducibility and reuse in data-driven sciences: from provenance to summaries - Franck Michel et Alban Gaignard pdf
  • 15h40-16h00 - retour d’expérience: La problématique de la provenance dans le domaine du phénotypage haut débit - Romain David - INRA
  • 16h00-16h30 Café
  • 16h30-17h00 Table de ronde sur la formalisation du processus d'analyse

J2: Usages et besoins en science des données ouverte - Supports aux chercheurs

  • Objectifs: nous nous intéresserons à tous les aspects pouvant aider l'utilisateur dans sa démarche de recherche par les données: le format des données pour leur exploitation par des algorithmes d'IA, la maîtrise de son environnement de travail, le suivi de ses travaux, la socialisation des expérimentations dans une communauté par le partage des traces et des bases d'apprentissage voire le parallèle avec les EIAH, le support à l'utilisateur, les systèmes de recommandation et d'aide à la décision, ergonomie.
  • Mots clés: framework, format de données, trace, base d'apprentissage, scénario, trace, support à l'utilisateur, systèmes de recommandation

Programme :

  • 09h00-09h15 - Introduction Données de la recherche, approche itérative de la recherche et socialisation - Pascal Dayre - CNRS/IRIT
  • 09h15-09h30 - poster DataNoos - Michelle Sibilla - IRIT
  • 09h30-09h45 - poster Identifying, naming and interoperating data in a Phenotyping platform network : the good, the bad and the ugly - Romain David - INRA
  • 09h45-10h00 - poster Atelier données Groupe inter-réseaux - Dominique Desboispdf
  • 10h00-10h15 - poster SO-DRIIHM - promoting open science within the labex - improving its research data infrastructure - Emilie Lerigoleur - CNRS/GEODE
  • 10h15-10h40 - Pause café
  • 10h40-11h00 - Comment gérer et publier des données en open access selon les principes FAIR ? Retour d'expérience et perspectives - Emilie Lerigoleur - CNRS/GEODE
  • 11h00-11h30 - Retour d'expérience sur les data papers du GBIF - Sophie Pamerlon - UMS Patrimoine Naturel pdf video
  • 11h30-12h15 - plateformes Big data - principes, usages et architectures - Sami Yangui - LAAS
  • 12h15-14h00 - Repas
  • 14h00-14h30 - Publier ses expériences d’apprentissage dans une base ouverte (chaînes de traitement, paramètres, données, résultats). cf. openML - Pascal Dayre - CNRS/IRIT
  • 14h30-15h15 - Les systèmes de recommandation / Aide à la décision, principes généraux - Julien Aligon / IRIT
  • 15h15-15h45 - Café
  • 15h45-16h15 - Application des systèmes de recommandation aux chaînes de traitement et à l'apprentissage - Gabriel Ferretini / IRIT
  • 16h15-16h30 - Présentation d'un VRE OSF Open Science Framework - Pascal Dayre - CNRS/IRIT
  • 16h30-17h00 - Atelier et discussions - Usages et besoins en science des données ouverte

J3: Les Environnement Virtuel de Recherche (EVR)

ou encore les ENT / ERV / VRE (Virtual Research Environment)

  • Objectifs: nous nous intéresserons ici aux couches d'intermédiation des utilisateurs, aux frameworks d'analyse et d'apprentissage automatique et à leur intégration dans les VRE (Environnement Virtuelle de Recherche).
  • Mots clés: framework, VRE (Environnement Virtuelle de Recherche), source de données, service de traitement dans le CLOUD, sémantisation

Programme:

  • 09h00-09h30 - Petit tour d'horizon et comparatif des VREs - Yvan Le Bras / MNHN pdf video
  • 09h30-10h00 - Retour d'expérience sur Google earth engine - Simon Gascoin - CESBIO pdf video
  • 10h00-10h45 - Pangeo : a community platform for Big Data (geo)science. Qu’est-ce que Pangeo et les cas d’utilisation scientifiques- Guillaume Eynard-Bontemps / CNES
  • 10h45-11h00Pause café
  • 11h00-11h45 - Les VRE pour la recherche participative - Yvan Le Bras / MNHN
  • 11h45-12h30 Les fonctionnalités nécessaires à la gestion des données complexes (objets symboliques) dans les environnements de recherche en data science - Edwin Diday
  • 12h30-14h00 - Repas
  • 14h00-14h30 - la plateforme web MASSICCC pour classifier des données complexes (mixtes, manquantes, fonctionnelles, haute dimension) - Pr. Christophe Biernacki, math.univ-lille1.fr/~biernack ; responsable scientifique de l'équipe MODAL (modal.lille.inria.fr) pdf
  • 14h30-15h00 - L'IA avec .net core et F# - François-David Collin - Université de Montpellier
  • 15h00-15h25 - Café
  • 15h25-15h45 - Composition de service de traitement de données - Emmanuel Courcelle / Centre calcul Calmip)
  • 15h45-16h25 - Atelier et discussions - Les fonctionnalités attendues des VRE et constitution d'un groupe pour rédiger un livre blanc
  • 16h25-17h00 - Discussion Intégrations des ressources et middleware/intergiciel et frameworks dans les VRE

J4: Les éco-systèmes pour la science ouverte

Objectifs:

Les plateformes de big data se développent mais sont souvent synonymes de solutions centralisées. Nous nous intéresserons ici aux solutions ouvertes et distribuées que sont les éco-systèmes pour la science ouverte intégrant : des e-infrastructures pour l'hébergement des données et fournissant un socle de services de traitement, et les couches d'intermédiations que sont les EVR (Environnement Virtuel de Recherche).

Nous sommes à la convergence entre calcul et données, et HPC et cloud. Nous avons d'un côté des centres de calcul et de l'autre des e-infrastructure de données. Allons-nous vers une architecture centralisée sous la forme d'une solution intégrée et bornée type plateforme ? Ou bien allons-nous vers des architectures distribuées, évolutives, basées sur des standards ouverts, des e-infrastructures et des socles de calcul pour le backbone/“back office”, et des VRE pour le “front office” assurant l’intermédiation pour l'accès aux services de traitement et d'analyse des données ?

Nous nous poserons également comme question lors de ces journées la mise en place de ces éco-systèmes, de l'offre des GAFAM tel que Google Earth Engine à des environnements co-construits par des communautés utilisatrices comme celle des sciences de la terre avec Pangeo. Nous nous intéresserons également à l'apport du web sémantique dans ces solutions.

Mots clés: éco-systèmes, communautés, e-infrastructures, services de données, services de calcul, communauté, big data, IA, CLOUD, EOSC.

Programme provisoire:

  • 08h30-08h45 - Introduction
  • 08h45-10h00 - Mise en place d'un service de calcul - REX du GT calcul Inria. Christophe Biernacki, Délégué scientifique du Centre Inria Lille
  • 10h00-10h30 - Café
  • 10h30-12h00 - L'infrastructure de recherche Data Terra: produits, services distribués et feuille de route d'écosystèmes pour la science ouverte. Frédéric Huynh, Directeur, Infrastructure de Recherche Data Terra - “Pôles de données et services pour le système Terre”. MESRI / CNES-CNRS-IFREMER-IGN-IRD-IRSTEA-METEO France. www.theia-land.fr ; www.odatis-ocean.fr ; www.aeris-data.fr ; www.poleterresolide.fr. diapos
  • 12h00-12h15 - Mise en place de Pangeo au centre de calcul du CNES, architecture et intégration. Guillaume Eynard-Bontemps, CNES (https://pangeo.io/, A community platform for Big Data, CLOUD,geoscience)
  • 12h15-12h45 - Création d’une offre de services “datacenter”, présentation du projet UFTMiP. Hervé Luga, VP Numérique de l'université de Toulouse diapos
  • 12h45-14h00 - Déjeuner
  • 14h00-14h45 - Les VRE, les frameworks, l'accès aux ressources et l'interopérabilité dans le réseau de France Grille et EGI. Axel Bonnet, CREATIS. diapos
  • 14h45-15h10 - Retour sur le RDA VRE Interest Group. Virtual Research Environments - Working towards building a common reference model and a catalogue of design patterns for VREs. Romain David INRA UMR MISTEA, Pascal Dayre CNRS/IRIT/ENSEEIHT diapos
  • 15h10-15h30 - Retour d'expérience de l'utilisation de l'environnement virtuel Conda et d'un container Singularity pour le calcul HPC. Yves Auda, CNRS/OMP diapos
  • 15h30-15h45 - Café
  • 15h45-16h45 - Discussion “Vers un standard ouvert pour un éco-système ouvert?”
 
apsem2019.txt · Dernière modification: 2020/05/25 15:30 par pascal.dayre@enseeiht.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki