Jour 1/4 : La problématique et les généralités

APSEM2018.J1

La démarche à explorer lors de ces journées: modèle descriptif des données < —– > apprentissage

Questions: méthodes quantitative et qualitative (et textuelles)

J1.am : Généralités : recherche par les données

exposés de 30 minutes: débroussailler les différentes méthodes et les contextes d'utilisation/application?

TODO

  • Dominique: intervenant INRA les différentes méthodes analyse graphe et les contextes d'utilisation/application
  • Question : le lien entre les BD noSQL et les analyses de donnees (cf. Romain David IndexMed)??

Objectifs

Programme prévisionnel

<del>* **10h20-10h45 :** - Les infrastructures de recherche en émergence - Pascal Dayre? ou solution pour l'IA mis en J3 Rafes?</del>

?? SEEDOO, Alexia Audevart / Equito -Toulouse data science meetup https://www.meetup.com/Tlse-Data-Science/pages/19238072/Rencontres_pass%C3%A9es_%28vid%C3%A9os_et_slides%29 https://www.meetup.com/Tlse-Data-Science/members/116879732/ (cf. Etienne)

  • 09h30-10h00 : - Accueil
  • 10h00-10h20 : - Présentation et objectif de l'action - Quels apports croisés de l'apprentissage et du web sémantique? Pascal Dayre
  • 10h20-10h45 : - Recherche par les données : de la données au représentation de connaissance: exploration, mise en forme et structuration des données -

Le processus d'analyse de données - Frank Cotton?? Sébastien Dejean / IMT

Les processus de travail / plan d'expérience (ex: PPDAC model)

  • 30min /1h - Analyse et préparation des données d'apprentissage pour eviter les biais (données manquantes, classes sur-replésentée, bonne distibution, erronnée) -Sébastien Déjean (à recontacter en mi fin Septembre) confirmation??
  • 10h45-11h15 : - La base des expériences passées, des worflows de traitement (open Workflow) / vers une proposition de sémantisation (Google group ML schema -Pays-Bas- (Comment et pourquoi?) - Gabriel Ferretini et William Raynant ? confirmation ??
  • 11h15-13h15 : - Les méthodes d'analyse des données (type versus nature des données -hétérogènes, …), le point de vue d'un mathématicien - Laurent Rissler, IMT (2h)
    • présentation de niveau relativement large (type ingé maths/info) sur ce qu'est le machine learning. Ma présentation portera sur :
    • Exemple introductif qui pose le vocabulaire (observation/variable/label/apprentissage supervisé ou non).
    • Evolution des tendances en science des données (de la statistique classique à l'apprentissage machine).
    • Présentation illustrée d'algorithmes classiques (arbre de classification, random forest, K-means, SVM).
    • Présentation illustrée de méthodes basées sur le calcul GPU (Deep-learning, XGBoost).
    • Méthodes standard d'évaluation de l'efficacité d'un algorithme d'apprentissage (LOO, K-fold).
    • Problématique actuelle de la réduction de dimension.
    • Problématique montante d'explicabilité des choix d'un algorithme l'apprentissage.
  • 12h30-14h00 : - Pause repas
  • 14h00-14h45 : - Le deep learning sur les données structurée (apprentissage structuré) - (Explainable AI à mettre sur le jour 3 - Mathieu Serrurier / IRIT (est-ce que Matthieu peut en faire 2??)

* 14h45-15h30 : - Les choix que doivent faire les data scientists pour les outils - Balazs Kegl (IN2P3,Paris-Saclay). Diapos ??

  • 15h30-16h00 : - Pause café
  • 16h00-16h30 : - Apport des graphes pour structurer les données - un intervenant de la J2 - Romain Boulet (IAE Lyon) / Bertrand Jouve ???
  • 16h30-17h00 : - Apport des graphes pour l'apprentissage (Analyse de graphe, …) - ??

CERFACS? Méthodes supervisée par graphe? PB du taggage des données d'apprentissage?

Brainstorming

Comment structurer les données pour leur utilisation?

Comment utiliser les utilisateurs à construire leur modèle?

  • Le nouveau paradigme de la recherche par les données pour l'émergence de connaissance
  • Les approches transdisciplinaires ⇒ besoins de croiser les données/étude complexe
  • Les infrastructures de recherche en émergence
  • Les analyses croisées mathématiques et algorithmiques
  • IA et pratiques de la connaissance (automatisation des tâches ⇒ besoin de formaliser l'activité)
  • Le web sémantique (activités, but): questionner le pourquoi et le comment?
    • activités
    • but: structuration des données, aider à mieux les sélectionner pour les analyser, …
  • Les analyses de données: questionner le pourquoi et le comment? (Dominique Dubois et Laurent Rissler)
    • activités: sélectionner les paramètres (apports du web sémantique)
    • but: prédire et explorer (classifier, réduire la dimension (parcimonie))
  • Apports croisés des domaines (ouvrir sur les graphes ??)
    • Le web sémantique pour l'apprentissage :
      • préparer/enrichir les données d'apprentissage : est-ce que raisonner sur les données d'entrée peut aider les algos d'apprentissage ? Par exemple pour combler des données trop clairsemées (sparseness) ?
      • sélectionner les données d'apprentissage
      • décrire les outils d'analyse et chaines de traitements (workflow), aider/valider la composer les outils
      • aider à trouver les “bons” paramètres d'un algo d'apprentissage pour un jeu de données particulier ?
    • L'apprentissage pour aider la structuration de la connaissance :
      • apprentissage automatique pour l'Ingénierie des Connaissances : apprendre/découvrir une ontologie depuis des données (e.g. texte)
      • annoter automatiquement les portions d'un texte avec une ontologie de domaine
      • annoter les classes découvertes par un classifieur avec les classes d'ontologies de domaine ?
  • Les processus de travail (cf. Dejean 2018) :
    • P1: pour de nouvelles expérimentations : s'assurer du bon protocole d'acquisition des données
    • P2: pour des données historiques : s'assurer de la bonne réutilisabilité et des conditions limites
  • Les cas d'étude

Note: Les processus de travail / plan d'expérience

P1: ex: PPDAC model ou

  • 1/ state precisely a precise question
  • 2/ determine in advance the statistical methods to

use to analyse the data

  • 3/ define an experimental design
  • 4/ generate the data (it’s not the first step!)
  • 5/ analyse the data
  • 6/ interpret the results
  • 7/ answer the question asked in 1)

Iterate, if necessary

  • Presentation des cas d'étude en fin de matinée 15 minutes par cas d'étude (environnement, SHS):

J1.pm : les différents types d'analyse / données

(Laurent Rissler IMT ⇒ TODO: contact de Matthieu Serrurier pour l'apprentissage (pratique+didactique) IRIT.Melody: Tim Van-de-Cruys (Big data / Deep learning) et Stergos Afantenos. Philippe Muller (TAL)

Question: données textuelles?

Objectif: catalogue: Quelles sont les outils mathématiques, méthodes et usages par rapport aux types/caractéristiques de données/communautés ? (et quelles sont leurs implémentations informatiques / mise en oeuvre ?) ⇒ J4

Quelles méthodes impactées et à retenir. Quelle est l'évolution des outils et les pratiques? Quelles sont les limitations dans les méthodes, les outils et les pratiques actuelles? (description insuffisante des données, …)?

  • Question: quelle limitation se donne-t-on? Analyse? apprentisage?
  • Analyse statistique et de l'apprentissage automatique pour la prédiction
  • Les limites et
  • Les outils et les pratiques au travers ( Python, R, java, C, solveurs, fortran, …)
 
travail/apsem2017.j1.txt · Dernière modification: 2018/07/09 16:40 par pascal.dayre@enseeiht.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki