l’apport croisé et les nouvelles perspectives des technologies du web des données et de la recherche par les données.
Inscription et appel à contribution
Appel à retour d'expérience pour le jour 4
Appel à panélistes pour les tables rondes du jour 2 et du jour 3 (présentation de 10 minutes)
Appel à questions pour les tables rondes du jour 2 et du jour 3
====== Appel à contribution ======
L'organisation se fait en collaboration avec l'Inra avec le soutien financier d'Ingenum pour la prise en charge des frais d'inscription pour les agents Inra.
Il y a plusieurs enjeux scientifiques et techniques:
Maîtriser de nouvelles méthodes et outils pour l'émergence de connaissance en sciences expérimentales.
Offrir des terrains expérimentaux pour des statisticiens et la recherche en informatique.
Expérimenter le web sémantique et des données liées pour structurer les océans de données (ontologies descriptives, méthodes itératives, …)
Identifier et développer les savoir-faire pour les ingénieurs en science des données
L’apprentissage automatique et la statistique sont au coeur de la production des connaissance. En science expérimentale, avec l’afflux des données, les nouveaux moyens de calcul et les nouvelles techniques d’apprentissage, le paradigme de construction de la connaissance est inversé.
Préalablement, le scientifique partait d’une conceptualisation de son domaine puis collectait des données pour valider ou non son modèle (cf. méthode directe, méthode du modèle inverse).
L’ étape initiale de modélisation du phénomène est maintenant remplacée par une exploration des données qui aboutit à une émergence du modèle. Nous sommes à l’ère de la science par les données.
L'objectif est de faire se rencontrer la communauté des développeurs, des statisticiens, de l'apprentissage, du web sémantique et des expérimentateurs (producteurs de données) pour étudier l’apport de la structuration des données pour leur intégration, leur interopérabilité, leur sélection contextuelle pour améliorer la robustesse des apprentissages.
Nous nous intéresserons donc:
à la structuration de l'information à partir du web sémantique pour améliorer l'apprentissage et l'analyse des données.
à l'apprentissage et à l'analyse des données
à l'apprentissage pour aider à la structuration de l'information.
aux nouvelles approches basées analyse des graphes.
à des cas d'étude.
à des retours d'expérience.
aux outils, langages et environnements de travail
aux processus et méthodes de travail
-
en collaboration avec l'Inra avec le soutien financier
d'Ingenum pour la prise en charge des frais d'inscription pour les agents Inra.
Pascal Dayre / CNRS
-
-
Pascal Dayre
-
-
Nathalie Hernandez
-
Alban Gaignard
Franck Cotton
09h20-10h00 : - Accueil
10h00-10h15 : - Présentation et objectif de l'action - Quels apports croisés de l'apprentissage et du web sémantique? -
Pascal Dayre / CNRS/IRIT pdf
10h15-10h45 : - Recherche par les données : des données aux représentations des connaissances exploration, préparation des données d'apprentissage pour éviter les biais (données manquantes, classes sureprésentées, bonne distribution, données erronnées), mise en forme et structuration des données -
Sébastien Déjean / IMT pdf
10h45-11h15 : - Pause
11h15-12h15 : Synthèse de la science des données et de l'apprentissage automatique. Les points de vue maths/info de l'ingénieur -
Laurent Risser / IMT pdf
Exemple introductif qui pose le vocabulaire (observation/variable/label/apprentissage supervisé ou non).
Evolution des tendances en science des données (de la statistique classique à l'apprentissage machine).
Présentation illustrée d'algorithmes classiques (arbre de classification, random forest, K-means, SVM).
Présentation illustrée de méthodes basées sur le calcul GPU (Deep-learning, XGBoost).
Méthodes standard d'évaluation de l'efficacité d'un algorithme d'apprentissage (LOO, K-fold).
Problématique actuelle de la réduction de dimension.
Problématique montante d'explicabilité des choix d'un algorithme l'apprentissage. -
12h15-13h30 : - Pause repas
13h30-14h30 : - Synthèse de la science des données et de l'apprentissage automatique. Les points de vue maths/info de l'ingénieur -
Laurent Risser / IMT (suite)
14h30-15h15 : - Un point sur l'explicabilité et l'interprétabilité en machine learning -
Mathieu Serrurier / IRIT pdf
15h15-15h45 : - Pause café
15h45-16h30 : - Comment faire émerger un graphe du décodage de vos données. Mise en oeuvre pour l'analyse de la structure du discours dans les tchats. Méthode, approches classiques et extraction automatique de représentation avec le deep learning. -
Stergos Afantenos / IRIT pdf
16h30-17h15 : - Apprentissage et représentation jointe dans une base connaissance pour la désambiguation d'entités. Application à une collection de texte. -
Jose Moreno / IRIT pdf
20h00-22h00 : - Evénement social dinatoîre
Objectifs :
Accéder et fédérer des sources de données
principes et intérêts du Linked Data (5-stars…)
production de données
RDF à partir de données hétérogènes légataires
production de données liées : liage d'instances, alignement d'ontologies
Structurer les données ⇒ indexation et recherche d'information (à préciser)
Vocabulaires
pour décrire un jeu de données (métadonnées) : producteur, formats, provenance, unités, outils utilisés, moyens d'accès etc.
pour annoter de données existantes (e.g. Web Annotation Vocabulary)
pour formaliser les activités d'analyse (préciser ce que cela recouvre) (Franck Cotton, INSEE)
de statistique
pour décrire un service de traitement/analyse/apprentissage, une chaîne de traitement (workflows, composition des services), et annoter les données produites (provenance)
Interopérabilité entre le web sémantique et les outils d'analyse (R, python composant web semantique ?)
Interrogation des entrepôts
RDF.
09h00-10h00 : Introduction à l'Ingénierie des Connaissances, ses usages, ses intérêts : web des données, données liées, ontologies, aperçu des standards du web sémantique (
RDF/RDFS/OWL/SPARQL).
Franck Michel /
CNRS.
pdf
10h00-10h45 : Réutiliser/créer des vocabulaires contrôlés, des ontologies de domaine: LOV, BioPortal…
Nathalie Hernandez, Alban Gaignard.
pdf
11h15-11h40 : Comment annoter sémantiquement des données existantes (Web Annotation, CSV on the Web, JSON-LD…).
Nathalie Hernandez.
pdf
11h40-12h00 : Décrire et Publier des jeux de données sur le web: vocabulaires, catalogues et portails.
Franck Michel.
pdf.
12h00-12h30 : Vocabulaires liés aux statistiques : description de la structure des données -
Franck Cotton, INSEE.
pdf
14h00-14h30 : La mise en oeuvre du machine learning à partir d'un problème, de son modèle et du jeu de données. Quel choix de workflow pour quel explicabilité des paramètres de l'apprentissage -
Gabriel Ferrettini /
IRIT pdf
14h30-15h15 : Vocabulaires liés aux statistiques : documentation des jeux de données -
Franck Cotton / INSEE pdf
15h45-16h30 : Workflows scientifiques, provenance, et données liées du web pour la reproductibilité en sciences dirigées par les données.
Alban Gaignard.
pdf
Quel apport du web des données pour la préparation, la structuration et l'usage des données dans un processus d'apprentissage? Quels intérêts pour les infrastructures de recherche et les ENTC? ou comment les e-infrastructures se saisissent de la problématique de l'ouverture des données, de l'apprentissage et de l'IA.
Convergence apprentissage et sémantique c'est à dire représentation des connaissances.
Atelier de programmation GRAMINEES (GRAphe data Mining In Natural, Ecological and Environnemental Sciences, Responsables Romain David, IMBE, INEE, Nathan Cohen, I3S, INS2i)
Cet atelier GRAMINEES, labellisé et soutenu par le GDR MaDICS, est proposé par le consortium IndexMEED. Organisé en marge de APSEM2018 ,il est néanmoins ouvert aux participants à l’ANF, et a pour objectif de préparer les étapes et la répartition des rôles nécessaires à l’élaboration d’un programme de recherche concernant la fouille de données environnementale hétérogènes et réparties basée sur la visualisation et la fouille de graphe. Les défis à relever sont le passage à l'échelle et l’utilisation simultanée de bases de données de disciplines différentes : des données thématiques (exemple : biodiversité) et des bases de données dites “de contexte” (exemple : altitude, température, pluviométrie) administrées par des organismes différents.
A l’issu de ces échanges, l'élaboration d’une première version d’un arbre de décision pour les choix d'algorithmes de fouille dépendant de la typologie des données sera proposé. Cet arbre doit permettre de classer les différents graphes en fonction de leur contenu et de la manière dont ils sont construits.Il doit aussi mettre en évidence les différents axes de recherche sur ces données et leurs interdépendances, et faire émerger des questionnements scientifiques.
Le matin :3 REX : 45 min de présentation puis 15 minutes d'échange