Gérer les risques aujourd'hui et demain

Cybersécurité : l'IA à la portée de tous

30-01-2018

Deux mathématiciens français, Charles Bouveyron et Pierre Latouche, ont réussi un tour de force : leur algorithme d’intelligence artificielle (IA) analyse sur de très grands volumes de données à la fois les réseaux d’influence et les contenus textuels. Qui plus est, chacun peut tester cette IA gratuitement en ligne sur la plate-forme Linkage.fr.

Sur la plate-forme Linkage, l’algorithme STBM est doté
d’un module de visualisation graphique simple à utiliser.
© Linkage
Lancée ce 19 janvier dans le prestigieux amphithéâtre Richelieu de la Sorbonne, la plate-forme Web française Linkage.fr est étonnante à plus d'un titre. Tout d'abord, elle démocratise – gratuitement – l'usage de l'intelligence artificielle avec une simplicité et une ergonomie déconcertantes. En effet, il suffit de téléverser des jeux de données (aux formats e-mails, PubMed, Arxiv, Twitter...) pour que la machine les mouline et sorte des résultats en quelques secondes. Pas besoin d'être statisticien ni de procéder à un fastidieux apprentissage supervisé de la machine. Cette ergonomie a de quoi intéresser les professionnels non seulement du marketing, des médias, de la recherche et de la sociologie mais aussi ceux de la sûreté-sécurité. Notamment pour la lutte contre les réseaux de terroristes. 

Analyse simultanée des réseaux d'influence et des contenus textuels


Cette innovation provient de deux chercheurs français en mathématiques. À savoir Charles Bouveyron, professeur de mathématiques appliquées à l'Université Côte d'Azur, titulaire de la chaire d'excellence "Data Science" à l’Institut national de recherche en informatique et automatique (Inria) et Pierre Latouche, maître de conférences en mathématiques appliquées au laboratoire SAMM (Statistique, analyse et modélisation multidisciplinaire) de l’Université Paris 1 (Panthéon-Sorbonne). Ensemble, ils ont élaboré l’algorithme STBM qui se présente comme une généralisation de deux modèles statistiques reconnus : le Stochastic Block Model (SBM) qui modélise la structure d’un réseau par agrégation (clustering) et le LDA (Latent Dirichlet Allocation) qui analyse les thèmes abordés dans des textes. Autrement dit, l’algorithme permet de voir « qui parle de quoi à qui ? ». « Nous modélisons à la fois les groupes de personnes (réseaux) et le contenu des textes, dans un grand nombre de langues », explique Charles Bouveyron. « Ces modèles se calculent automatiquement sur la plate-forme Linkage. Sans intervention humaine. », renchérit Pierre Latouche .

Analyser de très grands volumes de données 


Histoire de « se faire la main », les deux chercheurs ont fait tourner STBM pour faire parler 253.000 e-mails (aujourd’hui dans le domaine public) du groupe américain Enron qui avait connu une faillite retentissante au début des années 2000. Objectif : mettre en lumière conjointement le contenu des échanges et les interactions entre des individus ou des groupes d’individus. Les chercheurs ont passé également avec succès l’analyse des réseaux de co-publications scientifiques du serveur HAL de l’Université Paris Descartes (plus de 10.000 articles , 13.000 auteurs, 10 groupes, 100 thématiques) et de PubMed, le plus grand serveur américain d’articles scientifiques médicaux (10.000 articles, 9.418 auteurs, 68.000 interactions…). Impressionnant, l’algorithme ne réclame à l’ordinateur (24 cœurs, 128 Go de RAM) que quelques secondes à quelques minutes pour traiter ces données massives. 

Valorisation industrielle


Reste que, pour passer d’un algorithme mathématique à une plate-forme en ligne opérationnelle, il a fallu industrialiser et packager une offre. C’est ce qu’a financé IDF Innov, la société d’accélération du transfert de technologies (Satt) d’Île-de-France en recourant à Damien Marié, qui travaille à présent au MédiaLab de SciencesPo. Il en résulte une plate-forme dotée du langage de programmation Python (très prisé des statisticiens), du framework Django, de l’algorithme de traitement du langage naturel NLTK, du module de visualisation graphique Vivagraph, et d’OpenMP, l’outil dédié à la parallélisation du calcul. Au travers de la Satt, la valorisation de STBM s’effectue de deux manières : soit au travers de Linkage, la plate-forme en ligne gratuite et ouverte à tous mais d’un usage bridé ; et au travers d’un mode projet afin d’aider à l’implémentation de cette technologie dans l’environnement numérique du client. « En matière de sûreté-sécurité, les applications ne sont pas encore développées, reconnaît Robert Marino, directeur d'aéctivité à IDF Innov. Mais l’analyse automatique (non supervisée) à la fois les réseaux d’influence et des contenus textuels va intéresser la détection de fraude et des signaux faibles ainsi que la mise en évidence des personnes d’influence. » Prochaine étape : « Faire la même chose, confie Charles Bouveyron, mais en rajoutant l’analyse d’images. »

Erick Haehnsen

Ce site modère les commentaires. Votre commentaire sera visible uniquement s'il est validé par la rédaction.

Vos réactions (0)

Soyez le premier à réagir / Signaler un abus

Réagissez

Votre adresse email ne sera pas publiée
Ce site modère les commentaires. Votre commentaire sera visible uniquement s'il est validé par la rédaction.