jdev2017:t5.a09

- - Atelier T5.A09
    - PORTEURS:
    - TITRE:
    - DESCRIPTION:
    - Contenu
    - Objectif
    - PREREQUIS

Atelier T5.A09

PORTEURS:

Thomas Bailet (architecte de solution Big Data et créateur de la plate-forme Logisland) et Nicolas Herbaut (PHD en informatique et spécialiste de la virtualisation réseau)

TITRE:

Atelier Flux d'évenement massif: mettre en place une chaîne de traitement, collecte, acquisition, configurer, création et exécution d'un algo de matching learning, plugin

LogIsland(http://github.com/Hurence/logisland) est une plate-forme d'Event Mining / Stream Processing gratuite, OpenSource basée sur Spark & Kafka qui permet de gérer d'énormes quantités de logs ou messages IoT pour faire émerger de l'information structurée à partir de donnée brute, massive et mouvante.

Il est utilisé pour la détection d'intrusions, de fraudes, d'anomalies, la gestion d'un parc applicatif …

Ce framework facilite le déploiement d'applications de Complex Event Processing sur des streams de données massives, il permet de coder ses propres processeurs en Java ou en Python ou bien d'utiliser des processeurs pré-packagés via une simple configuration. Les données structurées, événements, métriques et alertes sont ensuite indexés dans un moteur de recherche ou dans un cache distribué.

L'atelier séquencé, en deux temps, illustrera tous les concepts du traitement de flux temps réel distribué avec des outils Open Source. Il se basera sur un cas d'usage de cyber-sécurité, à savoir l'analyse de traces réseau d'un parc de machines. Les participants mettront en pratique l'ensemble des concepts abordés par l'implémentation d'une application d'analyse de traces réseau, classifiant automatiquement les typologies d'usages.

Contenu

formation aux outils de traitement temps réel distribués :
- Traitements distribués et machine learning avec Apache Spark
- Mise en place de bus de messages distribués avec Apache Kafka
- Analyse de flux temps réèl avec Logisland
mise en pratique avec la classification automatique de traces réseau :
- Collecte des données de télémétrie réseau (bro, pcap, netflow)
- Indexation et analyse exploratoire de l'utilisation réseau avec Kibana
- Agrégation temps réel des traces réseau
- Machine Learning par classification automatique des traces réseau
- Étiquetage automatique des paquets réseau et levée d'alertes.

Nous laisserons un temps d'exploration guidée sur d'autres fonctionnalités du framework comme les analyseurs complexes, les générateurs d'alertes, percolateurs, détecteurs d'outliers, échantillonneurs, taggeurs NLP,

Objectif

Le but de cet atelier est de faire découvrir ces outils OpenSource, fédérer de nouveaux développeurs et usagers de la plate-forme, donner du retour d'expérience sur l'exploitation de chaînes de stream processing sur des données massive, exposer le fonctionnement d'algorithmes distribués etc…

PREREQUIS

L'atelier est ouvert à toute personne de profil scientifique préoccupé par l'ingénierie de la donnée temps réel dans le domaine du big data. Des compétences de développement sont un plus sans être obligatoires.

Une image docker contenant l'ensemble des outils nécessaire sera fournie aux participants. Chaque participant devra pouvoir exécuter un container Docker sur sa machine.