Fusion de:
Crawling, Harvesting, Scraping pour la cartographie et la synthèse de réseaux de collaborations scientifiques
La publication scientifique est le principal moyen de diffusion et de valorisation des résultats de la recherche. De ce fait, nous nous basons sur cette unité d’observation afin d’explorer les collaborations scientifiques à travers les publications, établir la cartographie des partenariats nationaux et internationaux d’un corpus de papiers scientifiques et synthétiser des réseaux hétérogènes de collaborations scientifiques (auteurs, pays d’affiliation, thématiques, etc. ) et observer l’émergence de sous réseaux et leur évolution dans le temps et dans l’espace.
Moissonnage de données, content scraping, indexation, web services, enrichissement sémantique, SolR, réseaux d’auteurs.
Après un retour d’expérience pour la réalisation de la cartographie et la synthèse de réseaux de collaborations scientifiques, ce groupe de travail sera l’occasion d'aborder les questions suivantes :
1 / Quelles sont les méthodes et techniques pour la constitution d’un corpus : le crawling et moissonnage ciblés de métadonnées et de documents en ligne via des Protocoles : API Rest, OAI PMH, scraping RDF/XML/HTML avec la diversité de sources disponibles (theses.fr; sudoc; hal; wos, open data; jstor. scholar … wikipédia). Mise en oeuvre: avec le crawler Symfony, moissonnage et indexation des métadonnées et documents par le moteur de recherche et d’indexation SolR.
2 / A partir d’un corpus de papiers scientifiques (PDF), comment extraire les relations de co-écriture, de “citations explicites” issues des bibliographies. Mise en œuvre: Expérimentation et comparaison des outils ParsCit, CERMINE et GROBID.
3 / Comment synthétiser les réseaux d’auteurs, de coopérations scientifiques? Mise en œuvre : Indexation massive par SolR des données extraites et construction des matrices de contingence; Cartographie et visualisation en ligne de graphes de réseaux.
Etre familier avec les formats de structuration de données JSON / XML. S’adresse aux professionnels, membres de structures de recherche ou d’accompagnement de la recherche.
A-Phat LY (CNRS/LLL) & Yvan STROPPA (CNRS/Paul Painlevé)
La plateforme « The NetWork of Researchers» pour moissonner, analyser, visualiser et valoriser les données de la production scientifiques sous forme de graphe
Publication, chercheur, auteur, co-auteurs, citation, moissonner, affiliation, visualiser en 2D, graphe, classification.
La plateforme « The NetWork of Researchers » permet de visualiser et de valoriser les données de la production scientifiques issues du Web (publications) comme HAL-SHS, Dauphine, ArXiv, etc. (plus de 1 000 000 publications). Elle permet de voir la collaboration entre les chercheurs formant ainsi un graphe de réseau avec ou sans les citations. De ce fait, chaque chercheur ayant publié possède son propre réseau. Le portail permet d’identifier les publications en tenant compte de son historique et de comprendre le degré d’interactions entre les chercheurs, tant au niveau individuel, inter-laboratoire, par disciplines ou institut.
Les traitements statistiques, la modélisation et l’analyse des données, s’appuyant sur une infrastructure performante et robuste, permettent de préparer les données fiables afin de répondre aux requêtes et d’exécuter les calculs distribués (clusters). Les résultats obtenus couplés avec la plateforme vont permettre de visualiser en 2D le réseau des chercheurs et de leurs interactions avec les métadonnées qui les caractérisent (nom, prénom, affiliation, publication, co-auteur,…).
Avoir des notions de langages : PHP, JavaScript, D3.js, perl, python, Shell, API REST, Java, HTML, JQuery. Connaissance en base de données NoSQL comme MongoDB.