Retour à la liste des ateliers
Retour à la thématique
Retour au programme
Retour à la liste des thématiques
Pierre Senellart Info - Télécom Paris Tech, National University of Singapore
T3 (Fusionné avec T3.A04)
Comprendre les principes des mécanismes de calcul distribué de type Map/Reduce via l'implémentation Hadoop, et puis Spark.
Hadoop : Map-Reduce et Spark pour le calcul scientifique
Nous présenterons dans cet atelier les bases du calcul distribué à grande échelle, permettant d'analyser de grands jeux de données. Nous expliquerons comment décomposer les étapes de calcul dans le paradigme de programmation Map-Reduce, et comment utiliser Apache Hadoop pour lancer des travaux MapReduce. Nous présenterons ensuite Apache Spark, un paradigme de programmation généralisant MapReduce. Nous évoquerons d'autres paradigmes de programmation possibles au-dessus de la plate-forme Hadoop (Pig, Hive, Giraph). Finalement, lors d'une brève séance de travaux pratiques, nous montrerons comment implémenter et exécuter un calcul distribué simple en MapReduce et en Spark, avec Python.
Nombre de personnes maximum: 30
Machine virtuelle VirtualBox (attention, 4.5 Go), choisir l'un ou l'autre des miroirs suivants, par ordre de préférence :
(un miroir est aussi mis à disposition sur le réseau local de la salle de l'atelier)