jdev2015:t8.a03

Date : Juillet
Heure :
Salle :

Autre(s) Thématique(s) :

T3 (Fusionné avec T3.A04)

Pré-requis (intra et extra programme) :

Assister aux présentations du thème est un plus.

PUBLIC VISE

Informaticien, scientifique
Nombre maximum de personne : 30

OBJECTIF

Comprendre les principes des mécanismes de calcul distribué de type Map/Reduce via l'implémentation Hadoop, et puis Spark.

DESCRIPTION

Hadoop : Map-Reduce et Spark pour le calcul scientifique

Nous présenterons dans cet atelier les bases du calcul distribué à grande échelle, permettant d'analyser de grands jeux de données. Nous expliquerons comment décomposer les étapes de calcul dans le paradigme de programmation Map-Reduce, et comment utiliser Apache Hadoop pour lancer des travaux MapReduce. Nous présenterons ensuite Apache Spark, un paradigme de programmation généralisant MapReduce. Nous évoquerons d'autres paradigmes de programmation possibles au-dessus de la plate-forme Hadoop (Pig, Hive, Giraph). Finalement, lors d'une brève séance de travaux pratiques, nous montrerons comment implémenter et exécuter un calcul distribué simple en MapReduce et en Spark, avec Python.

INSTALLER SON ORDINATEUR

Environnement de développement fourni par l'intervenant sous forme d'une Machine virtuelle VirtualBox à pré-installer par les participants sur leur poste personnel en préparation de l'atelier

Nombre de personnes maximum: 30

Machine virtuelle VirtualBox (attention, 4.5 Go), choisir l'un ou l'autre des miroirs suivants, par ordre de préférence :

(un miroir est aussi mis à disposition sur le réseau local de la salle de l'atelier)

T8.A03 - Map-Reduce et Spark pour le calcul scientifique

Animateur(s) :

Niveau

Pré-requis (intra et extra programme) :

PUBLIC VISE

OBJECTIF

DESCRIPTION

INSTALLER SON ORDINATEUR

DOCUMENTS/RESSOURCES