En cette époque de ruée vers la donnée, les données massives (big data) résultant de l'explosion des capteurs, de l'open-data, de la complexité et de l'interdisciplinarité des recherches actuelles deviennent centrales.
Dans cette thématique, nous expliciterons les masses de données et leurs enjeux.
Nous ferons le point sur les outils et méthodes qui vous sont nécessaires dans le contexte de votre projet de développement logiciel et de recherche par les données.
Nous ferons un tour d'horizon pour identifier si selon le contexte recherche, les limites des technologies en matière de traitement et de stockage de haute volumétrie sont atteintes et si alors il faut utiliser des technologies adhoc labélisées “big data” ou si des techniques plus “traditionnelles” suffisent.
données ouvertes (open data), base de données, masse de données (big data), persistance des données, structuration des données, map-reduce, NoSQL, R, Julia, Python
09h00-09h40: T3.P1 - Introduction au big data. Définition et les enjeux du big data (Nouveaux domaines, Nouveaux métiers, Nouveaux champs). Exemple d'applications : collecter, stocker, analyser - Philippe Lacomme (ISIMA, Clermont-Ferrand) et Raksmey Phan (ISIMA, Clermont-Ferrand)
pdf vidéo
09h40-10h15: T3.P2 - Les enjeux techniques actuels : stocker. Les nouvelles catégories de bases de données(les différentes solutions,
API, disponibilités etc…). Exemple : MongoDB, Cassandra, Oracle. Principe de modélisation avec les bases NoSQL. Analyse Critique de cette approche - Philippe Lacomme (ISIMA, Clermont-Ferrand)
pdf vidéo
10h15-10h30: T3.P2b - Nouvelles opportunités offertes par les bases de données de graphes : illustration avec Neo4j -
Cédric Fauvet (Neo Technology)
pdf vidéo
10h30-11h00: Pause
11h00-11h45 T3.P3 - Donnez du sens à vos données (Elasticsearch, un moteur de recherche open source pour implémenter vos services de recherche big data et d'analyse) -
David Pilato (Elastic) pdf vidéo
11h45-12h30 T3.P4 - Hadoop, MapReduce et Spark pour vos développements de service -
Miguel Liroz Gistau (
INRIA, Montpellier)
pdf vidéo
-
T3.AP02: Bonne pratique en programmation, illustration par l'algorithmique intermédiaire avec python -
-
–> 4 ateliers sur les bases NoSQL pour étudier les différentes familles:
T3.A01a: Base de données NoSQL -
Raksmey Phan (
ISIMA, Clermont-Ferrand)
Oracle (Modélisation, Opération CRUD, Tests sur machines)
Descriptif :
Installation d'Oracle
Création d'un programme Java / Oracle NoSQL
Exemple de modélisation
Tests
T3.A01b: Base de données NoSQL de graphes Neo4J -
Cédric Fauvet et
Benoit Simard (Neo Technology)
Descriptif :
Installation de l'environnement
Introduction à la modélisation en graphes
Introduction au langage Cypher
T3.A02 : Base de données NoSQL -
Raksmey Phan (
ISIMA, Clermont-Ferrand)
Mongo DB (Modélisation, Opération CRUD, Tests sur machines)
Descriptif :
Installation Mongo DB
Création d'un programme Java / Oracle NoSQL
Exemple de modélisation
Tests
Prérequis : base de Java
Environnement : Netbeans
T3.A02 bis : Base de données NoSQL -
Raksmey Phan (
ISIMA, Clermont-Ferrand)
Cassandra (Modélisation, Opération CRUD, Tests sur machines)
Descriptif :
Installation Cassandra
Création d'un programme Java / Oracle NoSQL
Exemple de modélisation
Tests
Prérequis : base de Java
Environnement : Netbeans
—
T3.A03 : Analyse de données massive pour la recherche de patterns liés aux comportements d'utilisateurs : application à l'analyse de log d'une université -
Jonathan FONTANEL (
QUALIAC ERP, Chamalière)
T3.A08 : Python, apprentissage statistique et analyse de données pour la modélisation prédictive avec
scikit-learn -
Olivier Grisel (Inria Saclay)
T3.A10 : Traitement des données en parallèle avec Map-Reduce et Spark -
Miguel Liroz Gistau (
INRIA, Montpellier)
T3.A11 : Prise en main d'elasticsearch et de Kibana -
David Pilato (Elastic)
-
T3.GT03 : Foire aux bibliothèques thématiques scientifiques python et autres par effet de glue.
Echange et retour d'expérience. Extension des bibliothèques de références numpy, scipy, matplotlib à sa thématique scientifique.
Ouverture à d'autres langages (fortran, C, R, julia, …) , intégration de l'existant par le côté glue du langage. - Mickael Canouil (GIM3, Lille)
T3.GT05 : Les différentes méthodes d'optimisation d'un code Python (Cython, Numba, programmation parallèle ou utilisation de GPU avec CUDA). Exemple de calcul d'une fractale (Mandelbrot) -
Tristan Colombo
T3.GT06 : Programmation orientée objet interprétée -
Yves Auda (GET/OMP, Toulouse)
T3.GT08 : Comment et pourquoi certifier son centre de données? - 01/07/2015, 09h00-10h30
Françoise Genova Web (Observatoire de Strasbourg)
T3.GT09 : Comment contribuer à RDA? Comment constituer un GT, trouver des partenaires? le 01/07/2015, 11h00-12h30
Françoise Genova (Observatoire de Strasbourg)