Thomas Bailet (architecte de solution Big Data et créateur de la plate-forme Logisland) et Nicolas Herbaut (PHD en informatique et spécialiste de la virtualisation réseau)
Atelier Flux d'évenement massif: mettre en place une chaîne de traitement, collecte, acquisition, configurer, création et exécution d'un algo de matching learning, plugin
LogIsland(http://github.com/Hurence/logisland) est une plate-forme d'Event Mining / Stream Processing gratuite, OpenSource basée sur Spark & Kafka qui permet de gérer d'énormes quantités de logs ou messages IoT pour faire émerger de l'information structurée à partir de donnée brute, massive et mouvante.
Il est utilisé pour la détection d'intrusions, de fraudes, d'anomalies, la gestion d'un parc applicatif …
Ce framework facilite le déploiement d'applications de Complex Event Processing sur des streams de données massives, il permet de coder ses propres processeurs en Java ou en Python ou bien d'utiliser des processeurs pré-packagés via une simple configuration. Les données structurées, événements, métriques et alertes sont ensuite indexés dans un moteur de recherche ou dans un cache distribué.
L'atelier séquencé, en deux temps, illustrera tous les concepts du traitement de flux temps réel distribué avec des outils Open Source. Il se basera sur un cas d'usage de cyber-sécurité, à savoir l'analyse de traces réseau d'un parc de machines. Les participants mettront en pratique l'ensemble des concepts abordés par l'implémentation d'une application d'analyse de traces réseau, classifiant automatiquement les typologies d'usages.
Nous laisserons un temps d'exploration guidée sur d'autres fonctionnalités du framework comme les analyseurs complexes, les générateurs d'alertes, percolateurs, détecteurs d'outliers, échantillonneurs, taggeurs NLP,
Le but de cet atelier est de faire découvrir ces outils OpenSource, fédérer de nouveaux développeurs et usagers de la plate-forme, donner du retour d'expérience sur l'exploitation de chaînes de stream processing sur des données massive, exposer le fonctionnement d'algorithmes distribués etc…
L'atelier est ouvert à toute personne de profil scientifique préoccupé par l'ingénierie de la donnée temps réel dans le domaine du big data. Des compétences de développement sont un plus sans être obligatoires.
Une image docker contenant l'ensemble des outils nécessaire sera fournie aux participants. Chaque participant devra pouvoir exécuter un container Docker sur sa machine.