APSEM2018 Projet déposé 201706

Programme :

Quels sont les grands axes du programme ? :

Axe 1 : Web des données, données liées et web sémantique pour la représentation des connaissances Axe 2 : Apprentissage automatique et science des données, l’enjeu de la préparation des données et de leur sémantisation Axe 3 : Méthode pour la recherche, cas d’études Axe 4 : Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

Dans le cas où le projet est suffisamment avancé ou récurrent quel serait le programme prévisionnel ?

La dernière version du programme : http://devlog.cnrs.fr/apsem2018

Jour 1/4 : La problématique

  • La problématique des sciences expérimentales : présentation de cas d'étude * Cas d'étude multi-domaines - Le nouveau paradigme de recherche par les données - Problématique de la modélisation des domaines/structuration des données avec les ontologies descriptives (LOD, LED) - Problématique de la préparation des données et de la robustesse de l'analyse statistique et de l'apprentissage automatique pour la prédiction
  • Problématique et objectifs des journées: les évolution des pratiques de recherche autour des données (ex: l'utilisation de labibliographie, …)
  • Présentation des cas d'étude
  • Introduction de statistiques et de l'apprentissage: exploration et structuration des données massives. Différence corrélation/causalité, sélectionner un modèle
  • Intro du web des données: les tendances et les enjeux : enrichir la recheerche d'information

Jour 2/4 : Concepts et apports des domaines

jour2.4.am : Concepts des statistiques et de l'apprentissage

Analyse statistique et de l'apprentissage automatique pour la prédiction

- Principes et toolkits - Leur interfaçage - Les outils de workflow

  • Préparation des données
  • Techniques de régularisation de son modèle : techniques algorithmique pour sélectionner son modèle
  • Explication de l'apprentissage (ex: deep learning)

jour2.4.pm : Concepts et apports des données liées

  • Fondamentaux
  • Peupler le web des données legacy
  • Comment les moteurs de recherche utilse le web des données
  • Comment une communauté peut enrichir son domaine (liage des données
  • Structuration des données
  • Recherche d'information: affiner les moteurs de recherche (schemas.org/ Google knowledg graph (requête structurée): fouille, représentation, …

Jour 3/4 : Apports croisés des domaines

Pour l'instant un premier découpage. Nous verrons si nous ne pouvons pas faire un découpage plus orientés sur les pratiques.

Jour 3.4.am : Apport web sémantique à la statistique

  • Qualité des données
  • Sélection des données d'apprentissage
  • Annotation des outils d'apprentissages, contraintes, inputs etc.
  • Provenance : annotation de l'exécution d'un workflow d'apprentissage avec inputs, algos utilisées etc.

Intérêt, représentation et usage des données orientées graphes. Quel langage pour manipuler les données graphes? Convertir le données graphe en un format pour l'apprentissage (matrices, …).

Jour 3.4.pm : Apport la statistique au web sémantique

Utilisation des techniques d'apprentissage pour

  • lier des jeux de données, aligner des ontologies
  • traitement de langage naturel : extraction de connaissance structurée depuis du texte (Named-entity recognition, Named Entity linking)

Jour 4/4 : Mise en oeuvre technologique

Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

  • Cas d'étude: intégration de données hétérogènes - intégration de données bibliographiques dans les analyses - Gargantek -jdev2017.T2 - (TODO prendre contact)

Jour 3/4 : Préparation des données avec le linked data

- Qualité des données - Sélection des données d’apprentissage Intérêt, représentation et usage des données orientées graphes. Quel langage pour manipuler les données graphes? Convertir les données graphe en un format pour l'apprentissage (matrices, …).

Retour de Yves sur JDEV2017/t2:

  • appariement , alignement des données, des ontologies
  • analyse de tableau
  • Gargantek : analyse bibliographique
  • Statistique (Constantin) pour trouver les bons alignements:
  • Alignement basés sur la connaissance à priori et par apprentissage (constantin)
  • ⇒ approche mixe, comment réinjecter de la connaissance sous forme d'ontologie pour contraindre l'apprentissage

Jour 4/4 : Méthodes, outils, eco-ssytèmes et pratiques dans les études scientifiques (Mise en œuvre technologique, réexamination de cas d'étude)

Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

Modules

Module Intervenants (nom et qualité) Modalités pédagogiques
La problématique en science expérimentale (observatoire, INRA, …): science reproductive, passage à l'échelle - , systèmes complexes, évolution du paradigme de la science modelistion mathématique à une modélisation algorithmique) Yves Auda et Etienne Gondet Cours
Méthode pour la recherche/ création de connaissance Pascal ?
Les différentes approches pour l'exploitation des données : des statistiques descriptives à l'apprentissage
Les différentes solutions en préparation des données (analyse statistique) Sébastien Dejean, Laurent Risser
La préparation des données pour l'apprentissage (l'annotation de corpus)
Réseaux de neurone Pascal Dayre Cours et atelier
Deep learning Cours et atelier
Préparer ses données pour les analyses Sébastien Dejean, Laurent Risser Cours et Atelier (R/Python/Julia)
Comment rendre robuste son algorithme ? (méthode symbolique / qualitative versus méthode quantitative)
Le web sémantique pour l’interopérabilité Franck Michel Cours et atelier Web des données
Le LOD, le LED et les solutions d’ingénierie : Ontologies descriptives de domaine Franck Michel
Architecture des SI : SOA-WOA-ROAPascal Dayre
Le web sémantique pour la préparation des données: description des données: méta-données et description de corpus
Le web des données pour des analyses quantitatives et qualitatives
Accéder à une source de données sur internet : qualifier Franck Michel
Application sur etude de cas (Méthode pour la recherche) Dominique Desbois / Yves Auda, Tout le monde
Etude de cas

Exemple de cas d’étude : Explorer les relations entre la sémantique des données (structuration/modélisation des données d'enquête et/ou d'expérimentation) et les méthodologies d'apprentissage (algorithmes de fouille de données, techniques stochastiques de modélisation) en présentant les outils disponibles et au moins un exemple d'application à discuter par les participant(e)s.

 
travail/programmedepot201706.txt · Dernière modification: 2018/05/04 13:05 par pascal.dayre@enseeiht.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki