APSEM2018.J1
La démarche à explorer lors de ces journées:
modèle descriptif des données < —– > apprentissage
Questions: méthodes quantitative et qualitative (et textuelles)
exposés de 30 minutes: débroussailler les différentes méthodes et les contextes d'utilisation/application?
Dominique: intervenant INRA les différentes méthodes analyse graphe et les contextes d'utilisation/application
Question : le lien entre les BD noSQL et les analyses de donnees (cf. Romain David IndexMed)??
<del>* **10h20-10h45 :** - Les infrastructures de recherche en émergence - Pascal Dayre? ou solution pour l'IA mis en J3 Rafes?</del>
?? SEEDOO, Alexia Audevart / Equito -Toulouse data science meetup https://www.meetup.com/Tlse-Data-Science/pages/19238072/Rencontres_pass%C3%A9es_%28vid%C3%A9os_et_slides%29 https://www.meetup.com/Tlse-Data-Science/members/116879732/ (cf. Etienne)
09h30-10h00 : - Accueil
10h00-10h20 : - Présentation et objectif de l'action - Quels apports croisés de l'apprentissage et du web sémantique? Pascal Dayre
10h20-10h45 : - Recherche par les données : de la données au représentation de connaissance: exploration, mise en forme et structuration des données -
Le processus d'analyse de données - Frank Cotton??
Sébastien Dejean / IMT
Les processus de travail / plan d'expérience (ex: PPDAC model)
30min /1h - Analyse et préparation des données d'apprentissage pour eviter les biais (données manquantes, classes sur-replésentée, bonne distibution, erronnée) -Sébastien Déjean (à recontacter en mi fin Septembre) confirmation??
10h45-11h15 : - La base des expériences passées, des worflows de traitement (open Workflow) / vers une proposition de sémantisation (Google group ML schema -Pays-Bas- (Comment et pourquoi?) - Gabriel Ferretini et William Raynant ? confirmation ??
11h15-13h15 : - Les méthodes d'analyse des données (type versus nature des données -hétérogènes, …), le point de vue d'un mathématicien - Laurent Rissler, IMT (2h)
présentation de niveau relativement large (type ingé maths/info) sur ce qu'est le machine learning. Ma présentation portera sur :
Exemple introductif qui pose le vocabulaire (observation/variable/label/apprentissage supervisé ou non).
Evolution des tendances en science des données (de la statistique classique à l'apprentissage machine).
Présentation illustrée d'algorithmes classiques (arbre de classification, random forest, K-means, SVM).
Présentation illustrée de méthodes basées sur le calcul GPU (Deep-learning, XGBoost).
Méthodes standard d'évaluation de l'efficacité d'un algorithme d'apprentissage (LOO, K-fold).
Problématique actuelle de la réduction de dimension.
Problématique montante d'explicabilité des choix d'un algorithme l'apprentissage.
12h30-14h00 : - Pause repas
14h00-14h45 : - Le deep learning sur les données structurée (apprentissage structuré) - (Explainable AI à mettre sur le jour 3 - Mathieu Serrurier / IRIT (est-ce que Matthieu peut en faire 2??)
* 14h45-15h30 : - Les choix que doivent faire les data scientists pour les outils - Balazs Kegl (IN2P3,Paris-Saclay). Diapos ??
15h30-16h00 : - Pause café
16h00-16h30 : - Apport des graphes pour structurer les données - un intervenant de la J2 - Romain Boulet (IAE Lyon) / Bertrand Jouve ???
16h30-17h00 : - Apport des graphes pour l'apprentissage (Analyse de graphe, …) - ??
CERFACS? Méthodes supervisée par graphe? PB du taggage des données d'apprentissage?
Comment structurer les données pour leur utilisation?
Comment utiliser les utilisateurs à construire leur modèle?
Le nouveau paradigme de la recherche par les données pour l'émergence de connaissance
Les approches transdisciplinaires ⇒ besoins de croiser les données/étude complexe
Les infrastructures de recherche en émergence
Les analyses croisées mathématiques et algorithmiques
IA et pratiques de la connaissance (automatisation des tâches ⇒ besoin de formaliser l'activité)
Le web sémantique (activités, but): questionner le pourquoi et le comment?
Les analyses de données: questionner le pourquoi et le comment? (Dominique Dubois et Laurent Rissler)
activités: sélectionner les paramètres (apports du web sémantique)
but: prédire et explorer (classifier, réduire la dimension (parcimonie))
Apports croisés des domaines (ouvrir sur les graphes ??)
Les processus de travail (cf. Dejean 2018) :
Les cas d'étude
Note: Les processus de travail / plan d'expérience
P1:
ex: PPDAC model
ou
use to analyse the data
3/ define an experimental design
4/ generate the data (it’s not the first step!)
5/ analyse the data
6/ interpret the results
7/ answer the question asked in 1)
Iterate, if necessary
(Laurent Rissler IMT ⇒
TODO: contact de Matthieu Serrurier pour l'apprentissage (pratique+didactique)
IRIT.Melody: Tim Van-de-Cruys (Big data / Deep learning) et Stergos Afantenos. Philippe Muller (TAL)
Question: données textuelles?
Objectif: catalogue: Quelles sont les outils mathématiques, méthodes et usages par rapport aux types/caractéristiques de données/communautés ? (et quelles sont leurs implémentations informatiques / mise en oeuvre ?) ⇒ J4
Quelles méthodes impactées et à retenir.
Quelle est l'évolution des outils et les pratiques?
Quelles sont les limitations dans les méthodes, les outils et les pratiques actuelles? (description insuffisante des données, …)?
Les outils et les pratiques au travers ( Python, R, java, C, solveurs, fortran, …)