Retour DescriptionMots clésPresentationsAteliers préparatoiresAteliersGroupes de travail

T3 - Données massives scientifiques (Big data), recherche par les données

Description

En cette époque de ruée vers la donnée, les données massives (big data) résultant de l'explosion des capteurs, de l'open-data, de la complexité et de l'interdisciplinarité des recherches actuelles deviennent centrales.

Dans cette thématique, nous expliciterons les masses de données et leurs enjeux. Nous ferons le point sur les outils et méthodes qui vous sont nécessaires dans le contexte de votre projet de développement logiciel et de recherche par les données. Nous ferons un tour d'horizon pour identifier si selon le contexte recherche, les limites des technologies en matière de traitement et de stockage de haute volumétrie sont atteintes et si alors il faut utiliser des technologies adhoc labélisées “big data” ou si des techniques plus “traditionnelles” suffisent.

Mots clés

données ouvertes (open data), base de données, masse de données (big data), persistance des données, structuration des données, map-reduce, NoSQL, R, Julia, Python

Présentations

  • 09h00-09h40: T3.P1 - Introduction au big data. Définition et les enjeux du big data (Nouveaux domaines, Nouveaux métiers, Nouveaux champs). Exemple d'applications : collecter, stocker, analyser - Philippe Lacomme (ISIMA, Clermont-Ferrand) et Raksmey Phan (ISIMA, Clermont-Ferrand) pdf vidéo
  • 09h40-10h15: T3.P2 - Les enjeux techniques actuels : stocker. Les nouvelles catégories de bases de données(les différentes solutions, API, disponibilités etc…). Exemple : MongoDB, Cassandra, Oracle. Principe de modélisation avec les bases NoSQL. Analyse Critique de cette approche - Philippe Lacomme (ISIMA, Clermont-Ferrand) pdf vidéo
  • 10h15-10h30: T3.P2b - Nouvelles opportunités offertes par les bases de données de graphes : illustration avec Neo4j - Cédric Fauvet (Neo Technology) pdf vidéo
  • 10h30-11h00: Pause
  • 11h00-11h45 T3.P3 - Donnez du sens à vos données (Elasticsearch, un moteur de recherche open source pour implémenter vos services de recherche big data et d'analyse) - David Pilato (Elastic) pdf vidéo
  • 11h45-12h30 T3.P4 - Hadoop, MapReduce et Spark pour vos développements de service - Miguel Liroz Gistau (INRIA, Montpellier) pdf vidéo

Ateliers préparatoires

  • T3.AP02: Bonne pratique en programmation, illustration par l'algorithmique intermédiaire avec python -
  • T3.AP03 : Initiation à Python - Sékou Diakité (Institut UTINAM, Besançon)

Ateliers

–> 4 ateliers sur les bases NoSQL pour étudier les différentes familles:

  • T3.A01a: Base de données NoSQL - Raksmey Phan (ISIMA, Clermont-Ferrand)

Oracle (Modélisation, Opération CRUD, Tests sur machines) Descriptif :

  1. Installation d'Oracle
  2. Création d'un programme Java / Oracle NoSQL
  3. Exemple de modélisation
  4. Tests
    • Prérequis : Des bases en Java
    • Environnement : Netbeans
  • T3.A01b: Base de données NoSQL de graphes Neo4J - Cédric Fauvet et Benoit Simard (Neo Technology)

Descriptif :

  1. Installation de l'environnement
  2. Introduction à la modélisation en graphes
  3. Introduction au langage Cypher
    • Prérequis : Des bases en Java et en Cypher son un plus
    • Environnement : Navigateur web et Neo4j (Ide java facultatif)
  • T3.A02 : Base de données NoSQL - Raksmey Phan (ISIMA, Clermont-Ferrand)

Mongo DB (Modélisation, Opération CRUD, Tests sur machines) Descriptif :

  1. Installation Mongo DB
  2. Création d'un programme Java / Oracle NoSQL
  3. Exemple de modélisation
  4. Tests
    • Prérequis : base de Java
    • Environnement : Netbeans
  • T3.A02 bis : Base de données NoSQL - Raksmey Phan (ISIMA, Clermont-Ferrand)

Cassandra (Modélisation, Opération CRUD, Tests sur machines) Descriptif :

  1. Installation Cassandra
  2. Création d'un programme Java / Oracle NoSQL
  3. Exemple de modélisation
  4. Tests
    • Prérequis : base de Java
    • Environnement : Netbeans

  • T3.A03 : Analyse de données massive pour la recherche de patterns liés aux comportements d'utilisateurs : application à l'analyse de log d'une université - Jonathan FONTANEL (QUALIAC ERP, Chamalière)
  • T3.A08 : Python, apprentissage statistique et analyse de données pour la modélisation prédictive avec scikit-learn - Olivier Grisel (Inria Saclay)
  • T3.A10 : Traitement des données en parallèle avec Map-Reduce et Spark - Miguel Liroz Gistau (INRIA, Montpellier)
  • T3.A11 : Prise en main d'elasticsearch et de Kibana - David Pilato (Elastic)

Groupes de travail

Echange et retour d'expérience. Extension des bibliothèques de références numpy, scipy, matplotlib à sa thématique scientifique. Ouverture à d'autres langages (fortran, C, R, julia, …) , intégration de l'existant par le côté glue du langage. - Mickael Canouil (GIM3, Lille)

  • T3.GT05 : Les différentes méthodes d'optimisation d'un code Python (Cython, Numba, programmation parallèle ou utilisation de GPU avec CUDA). Exemple de calcul d'une fractale (Mandelbrot) - Tristan Colombo
  • T3.GT06 : Programmation orientée objet interprétée - Yves Auda (GET/OMP, Toulouse)
  • T3.GT09 : Comment contribuer à RDA? Comment constituer un GT, trouver des partenaires? le 01/07/2015, 11h00-12h30 Françoise Genova (Observatoire de Strasbourg)
 
jdev2015/t3.txt · Dernière modification: 2017/02/10 12:50 par pascal.dayre@enseeiht.fr
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki