APSEM2018 Projet déposé 201706

Programme :

Quels sont les grands axes du programme ? :

Axe 1 : Web des données, données liées et web sémantique pour la représentation des connaissances Axe 2 : Apprentissage automatique et science des données, l’enjeu de la préparation des données et de leur sémantisation Axe 3 : Méthode pour la recherche, cas d’études Axe 4 : Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

Dans le cas où le projet est suffisamment avancé ou récurrent quel serait le programme prévisionnel ?

La dernière version du programme : http://devlog.cnrs.fr/apsem2018

Jour 1/4 : La problématique

La problématique des sciences expérimentales : présentation de cas d'étude * Cas d'étude multi-domaines - Le nouveau paradigme de recherche par les données - Problématique de la modélisation des domaines/structuration des données avec les ontologies descriptives (LOD, LED) - Problématique de la préparation des données et de la robustesse de l'analyse statistique et de l'apprentissage automatique pour la prédiction

Problématique et objectifs des journées: les évolution des pratiques de recherche autour des données (ex: l'utilisation de labibliographie, …)
Présentation des cas d'étude
Introduction de statistiques et de l'apprentissage: exploration et structuration des données massives. Différence corrélation/causalité, sélectionner un modèle
Intro du web des données: les tendances et les enjeux : enrichir la recheerche d'information

Jour 2/4 : Concepts et apports des domaines

jour2.4.am : Concepts des statistiques et de l'apprentissage

Analyse statistique et de l'apprentissage automatique pour la prédiction

- Principes et toolkits - Leur interfaçage - Les outils de workflow

Préparation des données
Techniques de régularisation de son modèle : techniques algorithmique pour sélectionner son modèle
Explication de l'apprentissage (ex: deep learning)

jour2.4.pm : Concepts et apports des données liées

Fondamentaux
Peupler le web des données legacy
Comment les moteurs de recherche utilse le web des données
Comment une communauté peut enrichir son domaine (liage des données
Structuration des données
Recherche d'information: affiner les moteurs de recherche (schemas.org/ Google knowledg graph (requête structurée): fouille, représentation, …

Jour 3/4 : Apports croisés des domaines

Pour l'instant un premier découpage. Nous verrons si nous ne pouvons pas faire un découpage plus orientés sur les pratiques.

Jour 3.4.am : Apport web sémantique à la statistique

Qualité des données
Sélection des données d'apprentissage
Annotation des outils d'apprentissages, contraintes, inputs etc.
Provenance : annotation de l'exécution d'un workflow d'apprentissage avec inputs, algos utilisées etc.

Intérêt, représentation et usage des données orientées graphes. Quel langage pour manipuler les données graphes? Convertir le données graphe en un format pour l'apprentissage (matrices, …).

Jour 3.4.pm : Apport la statistique au web sémantique

Utilisation des techniques d'apprentissage pour

lier des jeux de données, aligner des ontologies
traitement de langage naturel : extraction de connaissance structurée depuis du texte (Named-entity recognition, Named Entity linking)

Jour 4/4 : Mise en oeuvre technologique

Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

Cas d'étude: intégration de données hétérogènes - intégration de données bibliographiques dans les analyses - Gargantek -jdev2017.T2 - (TODO prendre contact)

Jour 3/4 : Préparation des données avec le linked data

- Qualité des données - Sélection des données d’apprentissage Intérêt, représentation et usage des données orientées graphes. Quel langage pour manipuler les données graphes? Convertir les données graphe en un format pour l'apprentissage (matrices, …).

Retour de Yves sur JDEV2017/t2:

appariement , alignement des données, des ontologies
analyse de tableau
Gargantek : analyse bibliographique
Statistique (Constantin) pour trouver les bons alignements:
Alignement basés sur la connaissance à priori et par apprentissage (constantin)
⇒ approche mixe, comment réinjecter de la connaissance sous forme d'ontologie pour contraindre l'apprentissage

Jour 4/4 : Méthodes, outils, eco-ssytèmes et pratiques dans les études scientifiques (Mise en œuvre technologique, réexamination de cas d'étude)

Mise en œuvre technologiques (source et interopérabilité des données, architectures SOA/WOA/ROA, architecture de service versus architecture de données, intégration des toolkit de machine learning, chaîne de traitement, …)

STM - Corby JDEV2017.T2 http://devlog.cnrs.fr/_media/jdev2017/bpdp.zip?id=jdev2017%3At2&cache=cache : transformation des données graphes en dtableau (cf. Yves)
Le cas du deep learning
Le cas d'IndexMed

Modules

Module	Intervenants (nom et qualité)	Modalités pédagogiques
La problématique en science expérimentale (observatoire, INRA, …): science reproductive, passage à l'échelle - , systèmes complexes, évolution du paradigme de la science modelistion mathématique à une modélisation algorithmique)	Yves Auda et Etienne Gondet	Cours
Méthode pour la recherche/ création de connaissance	Pascal ?
Les différentes approches pour l'exploitation des données : des statistiques descriptives à l'apprentissage
Les différentes solutions en préparation des données (analyse statistique)	Sébastien Dejean, Laurent Risser
La préparation des données pour l'apprentissage (l'annotation de corpus)
Réseaux de neurone	Pascal Dayre	Cours et atelier
Deep learning		Cours et atelier
Préparer ses données pour les analyses	Sébastien Dejean, Laurent Risser	Cours et Atelier (R/Python/Julia)
Comment rendre robuste son algorithme ? (méthode symbolique / qualitative versus méthode quantitative)
Le web sémantique pour l’interopérabilité	Franck Michel	Cours et atelier Web des données
Le LOD, le LED et les solutions d’ingénierie : Ontologies descriptives de domaine	Franck Michel
Architecture des SI : SOA-WOA-ROA	Pascal Dayre
Le web sémantique pour la préparation des données: description des données: méta-données et description de corpus
Le web des données pour des analyses quantitatives et qualitatives
Accéder à une source de données sur internet : qualifier	Franck Michel
Application sur etude de cas (Méthode pour la recherche)	Dominique Desbois / Yves Auda, Tout le monde
Etude de cas

Exemple de cas d’étude : Explorer les relations entre la sémantique des données (structuration/modélisation des données d'enquête et/ou d'expérimentation) et les méthodologies d'apprentissage (algorithmes de fouille de données, techniques stochastiques de modélisation) en présentant les outils disponibles et au moins un exemple d'application à discuter par les participant(e)s.