Jour 1/4 : La problématique et les généralités

- Jour 1/4 : La problématique et les généralités
  - J1.am : Généralités : recherche par les données
  - J1.pm : les différents types d'analyse / données

Jour 1/4 : La problématique et les généralités

APSEM2018.J1

La démarche à explorer lors de ces journées: modèle descriptif des données < —– > apprentissage

Questions: méthodes quantitative et qualitative (et textuelles)

J1.am : Généralités : recherche par les données

exposés de 30 minutes: débroussailler les différentes méthodes et les contextes d'utilisation/application?

TODO

Dominique: intervenant INRA les différentes méthodes analyse graphe et les contextes d'utilisation/application
Question : le lien entre les BD noSQL et les analyses de donnees (cf. Romain David IndexMed)??

Programme prévisionnel

<del>* **10h20-10h45 :** - Les infrastructures de recherche en émergence - Pascal Dayre? ou solution pour l'IA mis en J3 Rafes?</del>

?? SEEDOO, Alexia Audevart / Equito -Toulouse data science meetup https://www.meetup.com/Tlse-Data-Science/pages/19238072/Rencontres_pass%C3%A9es_%28vid%C3%A9os_et_slides%29 https://www.meetup.com/Tlse-Data-Science/members/116879732/ (cf. Etienne)

09h30-10h00 : - Accueil
10h00-10h20 : - Présentation et objectif de l'action - Quels apports croisés de l'apprentissage et du web sémantique? Pascal Dayre
10h20-10h45 : - Recherche par les données : de la données au représentation de connaissance: exploration, mise en forme et structuration des données -

~~Le processus d'analyse de données - Frank Cotton??~~ ~~Sébastien Dejean / IMT~~

Les processus de travail / plan d'expérience (ex: PPDAC model)

30min /1h - Analyse et préparation des données d'apprentissage pour eviter les biais (données manquantes, classes sur-replésentée, bonne distibution, erronnée) -Sébastien Déjean (à recontacter en mi fin Septembre) confirmation??
10h45-11h15 : - La base des expériences passées, des worflows de traitement (open Workflow) / vers une proposition de sémantisation (Google group ML schema -Pays-Bas- (Comment et pourquoi?) - Gabriel Ferretini et William Raynant ? confirmation ??
11h15-13h15 : - Les méthodes d'analyse des données (type versus nature des données -hétérogènes, …), le point de vue d'un mathématicien - Laurent Rissler, IMT (2h)
- présentation de niveau relativement large (type ingé maths/info) sur ce qu'est le machine learning. Ma présentation portera sur :
- Exemple introductif qui pose le vocabulaire (observation/variable/label/apprentissage supervisé ou non).
- Evolution des tendances en science des données (de la statistique classique à l'apprentissage machine).
- Présentation illustrée d'algorithmes classiques (arbre de classification, random forest, K-means, SVM).
- Présentation illustrée de méthodes basées sur le calcul GPU (Deep-learning, XGBoost).
- Méthodes standard d'évaluation de l'efficacité d'un algorithme d'apprentissage (LOO, K-fold).
- Problématique actuelle de la réduction de dimension.
- Problématique montante d'explicabilité des choix d'un algorithme l'apprentissage.

12h30-14h00 : - Pause repas
14h00-14h45 : - Le deep learning sur les données structurée (apprentissage structuré) - (Explainable AI à mettre sur le jour 3 - Mathieu Serrurier / IRIT (est-ce que Matthieu peut en faire 2??)

* 14h45-15h30 : - Les choix que doivent faire les data scientists pour les outils - Balazs Kegl (IN2P3,Paris-Saclay). Diapos ??

15h30-16h00 : - Pause café
16h00-16h30 : - Apport des graphes pour structurer les données - un intervenant de la J2 - Romain Boulet (IAE Lyon) / Bertrand Jouve ???
16h30-17h00 : - Apport des graphes pour l'apprentissage (Analyse de graphe, …) - ??

CERFACS? Méthodes supervisée par graphe? PB du taggage des données d'apprentissage?

Brainstorming

Comment structurer les données pour leur utilisation?

Comment utiliser les utilisateurs à construire leur modèle?

Le nouveau paradigme de la recherche par les données pour l'émergence de connaissance
Les approches transdisciplinaires ⇒ besoins de croiser les données/étude complexe
Les infrastructures de recherche en émergence
Les analyses croisées mathématiques et algorithmiques
IA et pratiques de la connaissance (automatisation des tâches ⇒ besoin de formaliser l'activité)
Le web sémantique (activités, but): questionner le pourquoi et le comment?
- activités
- but: structuration des données, aider à mieux les sélectionner pour les analyser, …
Les analyses de données: questionner le pourquoi et le comment? (Dominique Dubois et Laurent Rissler)
- activités: sélectionner les paramètres (apports du web sémantique)
- but: prédire et explorer (classifier, réduire la dimension (parcimonie))
Apports croisés des domaines (ouvrir sur les graphes ??)
- Le web sémantique pour l'apprentissage :
  - préparer/enrichir les données d'apprentissage : est-ce que raisonner sur les données d'entrée peut aider les algos d'apprentissage ? Par exemple pour combler des données trop clairsemées (sparseness) ?
  - sélectionner les données d'apprentissage
  - décrire les outils d'analyse et chaines de traitements (workflow), aider/valider la composer les outils
  - aider à trouver les “bons” paramètres d'un algo d'apprentissage pour un jeu de données particulier ?
  - …
- L'apprentissage pour aider la structuration de la connaissance :
  - apprentissage automatique pour l'Ingénierie des Connaissances : apprendre/découvrir une ontologie depuis des données (e.g. texte)
  - annoter automatiquement les portions d'un texte avec une ontologie de domaine
  - annoter les classes découvertes par un classifieur avec les classes d'ontologies de domaine ?
  - …
Les processus de travail (cf. Dejean 2018) :
- P1: pour de nouvelles expérimentations : s'assurer du bon protocole d'acquisition des données
- P2: pour des données historiques : s'assurer de la bonne réutilisabilité et des conditions limites
Les cas d'étude

Note: Les processus de travail / plan d'expérience

P1: ex: PPDAC model ou

1/ state precisely a precise question
2/ determine in advance the statistical methods to

use to analyse the data

3/ define an experimental design
4/ generate the data (it’s not the first step!)
5/ analyse the data
6/ interpret the results
7/ answer the question asked in 1)

Iterate, if necessary

Presentation des cas d'étude en fin de matinée 15 minutes par cas d'étude (environnement, SHS):

J1.pm : les différents types d'analyse / données

(Laurent Rissler IMT ⇒ TODO: contact de Matthieu Serrurier pour l'apprentissage (pratique+didactique) IRIT.Melody: Tim Van-de-Cruys (Big data / Deep learning) et Stergos Afantenos. Philippe Muller (TAL)

Question: données textuelles?

Objectif: catalogue: Quelles sont les outils mathématiques, méthodes et usages par rapport aux types/caractéristiques de données/communautés ? ~~(et quelles sont leurs implémentations informatiques / mise en oeuvre ?) ⇒ J4~~

Quelles méthodes impactées et à retenir. Quelle est l'évolution des outils et les pratiques? Quelles sont les limitations dans les méthodes, les outils et les pratiques actuelles? (description insuffisante des données, …)?

Question: quelle limitation se donne-t-on? Analyse? apprentisage?

Analyse statistique et de l'apprentissage automatique pour la prédiction
Les limites et

Les outils et les pratiques au travers ( Python, R, java, C, solveurs, fortran, …)