Table des matières

T3.A10 - Traitement des données en parallèle avec Map-Reduce et Spark

Retour à la liste des ateliers
Retour à la thématique
Retour au programme
Retour à la liste des thématiques

Animateur(s) :

Miguel Liroz Gistau (INRIA, Montpellier)

Niveau

Pré-requis (intra et extra programme) :

PUBLIC VISE

DESCRIPTION

Dans cet atelier nous présenterons la plateforme Apache Hadoop pour le traitement des données distribuées, avec son système de fichiers HDFS et les applications pour le calcul en parallèle MapReduce et Apache Spark.

Dans un premier temps nous ferons une introduction au modèle de programmation MapReduce pour exécuter des travaux simples pour le traitement des donnés. En suite, nous passerons a présenter Apache Spark, une nouvelle plateforme qui généralise le model de programmation MapReduce et nous implémenterons les travaux dans le nouveau langage.

Dans la deuxième partie de l’atelier nous nous concentrerons sur les outils spécifiques pour le traitement des données structurées, qui permettent d'introduire des optimisations dans le calcul. Ainsi, nous présenterons Spark SQL et le langage HiveQL et nous ferons des requêtes simples et explorerons comment ces requêtes sont traduites en opérations Spark.

Cf. l'atelier T8.A03 pour le calcul scientifique

INSTALLER SON ORDINATEUR

DOCUMENTS/RESSOURCES