Table des matières

T8.A03 - Map-Reduce et Spark pour le calcul scientifique

Retour à la liste des ateliers
Retour à la thématique
Retour au programme
Retour à la liste des thématiques

Animateur(s) :

Pierre Senellart Info - Télécom Paris Tech, National University of Singapore

T3 (Fusionné avec T3.A04)

Niveau

Pré-requis (intra et extra programme) :

PUBLIC VISE

OBJECTIF

Comprendre les principes des mécanismes de calcul distribué de type Map/Reduce via l'implémentation Hadoop, et puis Spark.

DESCRIPTION

Hadoop : Map-Reduce et Spark pour le calcul scientifique

Nous présenterons dans cet atelier les bases du calcul distribué à grande échelle, permettant d'analyser de grands jeux de données. Nous expliquerons comment décomposer les étapes de calcul dans le paradigme de programmation Map-Reduce, et comment utiliser Apache Hadoop pour lancer des travaux MapReduce. Nous présenterons ensuite Apache Spark, un paradigme de programmation généralisant MapReduce. Nous évoquerons d'autres paradigmes de programmation possibles au-dessus de la plate-forme Hadoop (Pig, Hive, Giraph). Finalement, lors d'une brève séance de travaux pratiques, nous montrerons comment implémenter et exécuter un calcul distribué simple en MapReduce et en Spark, avec Python.

INSTALLER SON ORDINATEUR

Nombre de personnes maximum: 30

Machine virtuelle VirtualBox (attention, 4.5 Go), choisir l'un ou l'autre des miroirs suivants, par ordre de préférence :

(un miroir est aussi mis à disposition sur le réseau local de la salle de l'atelier)

DOCUMENTS/RESSOURCES