T8.A03 - Map-Reduce et Spark pour le calcul scientifique

Animateur(s) :

Pierre Senellart Info - Télécom Paris Tech, National University of Singapore

  • Date : Juillet
  • Heure :
  • Salle :
  • Autre(s) Thématique(s) :

T3 (Fusionné avec T3.A04)

Niveau

  • Intermédiaire

Pré-requis (intra et extra programme) :

  • Assister aux présentations du thème est un plus.

PUBLIC VISE

  • Informaticien, scientifique
  • Nombre maximum de personne : 30

OBJECTIF

Comprendre les principes des mécanismes de calcul distribué de type Map/Reduce via l'implémentation Hadoop, et puis Spark.

DESCRIPTION

Hadoop : Map-Reduce et Spark pour le calcul scientifique

Nous présenterons dans cet atelier les bases du calcul distribué à grande échelle, permettant d'analyser de grands jeux de données. Nous expliquerons comment décomposer les étapes de calcul dans le paradigme de programmation Map-Reduce, et comment utiliser Apache Hadoop pour lancer des travaux MapReduce. Nous présenterons ensuite Apache Spark, un paradigme de programmation généralisant MapReduce. Nous évoquerons d'autres paradigmes de programmation possibles au-dessus de la plate-forme Hadoop (Pig, Hive, Giraph). Finalement, lors d'une brève séance de travaux pratiques, nous montrerons comment implémenter et exécuter un calcul distribué simple en MapReduce et en Spark, avec Python.

INSTALLER SON ORDINATEUR

  • Environnement de développement fourni par l'intervenant sous forme d'une Machine virtuelle VirtualBox à pré-installer par les participants sur leur poste personnel en préparation de l'atelier

Nombre de personnes maximum: 30

Machine virtuelle VirtualBox (attention, 4.5 Go), choisir l'un ou l'autre des miroirs suivants, par ordre de préférence :

(un miroir est aussi mis à disposition sur le réseau local de la salle de l'atelier)

DOCUMENTS/RESSOURCES

 
jdev2015/t8.a03.txt · Dernière modification: 2015/07/02 17:58 par pierre@senellart.com
 
Recent changes RSS feed Powered by PHP Powered by Pxxo Driven by DokuWiki