jdev2015:t3.a10

Miguel Liroz Gistau (INRIA, Montpellier)

Date : agenda
Durée : 3h
Salle :
Autre(s) Thématique(s) :

Pré-requis (intra et extra programme) :

Assister aux présentations du thème
Des notions en Java ou Python seront utiles pour comprendre plus facilement les exemples en MapReduce et Apache Spark. Dans le cas de Spark, des équivalences en Scala peuvent être fournies si les participants sont intéressés.
Pour Spark SQL et HiveSQL des notions en SQL sont aussi recommandées.

Dans cet atelier nous présenterons la plateforme Apache Hadoop pour le traitement des données distribuées, avec son système de fichiers HDFS et les applications pour le calcul en parallèle MapReduce et Apache Spark.

Dans un premier temps nous ferons une introduction au modèle de programmation MapReduce pour exécuter des travaux simples pour le traitement des donnés. En suite, nous passerons a présenter Apache Spark, une nouvelle plateforme qui généralise le model de programmation MapReduce et nous implémenterons les travaux dans le nouveau langage.

Dans la deuxième partie de l’atelier nous nous concentrerons sur les outils spécifiques pour le traitement des données structurées, qui permettent d'introduire des optimisations dans le calcul. Ainsi, nous présenterons Spark SQL et le langage HiveQL et nous ferons des requêtes simples et explorerons comment ces requêtes sont traduites en opérations Spark.

Cf. l'atelier T8.A03 pour le calcul scientifique

INSTALLER SON ORDINATEUR

OS: peu importe
Logiciels: VirtualBox
Machine virtuelle: une box sera fournie aux participants par l'animateur
Conteneur:
Nbre de personnes maximum: 30

DOCUMENTS/RESSOURCES

Enoncé: t3.a10.tutorial.pdf
Le code des exemples est inclus dans la machine virtuelle.
Sites

T3.A10 - Traitement des données en parallèle avec Map-Reduce et Spark

Animateur(s) :

Niveau

Pré-requis (intra et extra programme) :

PUBLIC VISE

DESCRIPTION

INSTALLER SON ORDINATEUR

DOCUMENTS/RESSOURCES