Didier HENRY : Modèles de propagation de l’information et méthodes de sciences des données
De nos jours, les médias sociaux en ligne ont transformé notre façon de créer, de partager et d'accéder à l'information. Ces plateformes reposent sur de gigantesques réseaux et favorisent le libre échange d'informations entre des centaines de millions de personnes (célébrités, organisations, particuliers, syndicats, etc.) à travers le monde entier, et cela de manière instantanée. Chaque jour ces personnes diffusent et retransmettent des centaines de millions de messages portant sur une large variété de thématiques (politique, sport, santé, actualités, technologies, etc.).
Qu'ils soient en lien avec un évènement global, c'est-à-dire propre à l'ensemble ou à une partie des individus, ou en lien avec un évènement local, c'est-à-dire spécifique à un individu, ces messages peuvent influencer une société et peuvent contenir des informations utiles pour la détection ou la prédiction de phénomènes du monde réel. Par exemple, les messages postés sur le média social Twitter peuvent être utilisés pour prédire l'évolution des marchés boursiers, les résultats d’une élection présidentielle ou pour détecter et localiser les cas de dengue, les inondations ou les feux de forêt.
Cependant, certains messages diffusés sur les réseaux sociaux peuvent avoir un impact très négatif dans la vie réelle. Ces messages contenant une fausse rumeur ou « infox » peuvent avoir des conséquences désastreuses. Par exemple, en novembre 2010, un pirate informatique a utilisé le compte Twitter du conseiller présidentiel pour la gestion des catastrophes en Indonésie pour poster une fausse alerte de tsunami. De même, certains messages peuvent accentuer la peur et l'angoisse, par exemple, en janvier 2011, de fausses rumeurs lors d'une fusillade dans l'Oxford Circus à Londres ont créé des scènes de paniques.
Pour éviter et anticiper ces situations critiques, suivre les rumeurs, éviter les mauvaises réputations, et mieux comprendre le phénomène de diffusion en général, il est nécessaire d'étudier puis de modéliser la propagation de l'information.
Or, la plupart des modèles de diffusion introduits reposent sur des hypothèses axiomatiques représentées par des modèles mathématiques. Par conséquent, ces modèles sont éloignés des comportements de diffusion des utilisateurs dans la mesure où ils n’intègrent pas les observations faites sur des cas concrets de diffusion. De plus, ces modèles se focalisent sur le réseau des utilisateurs et ne prennent pas en compte l’ensemble des facteurs susceptibles d'influencer la diffusion d'une information notamment la dimension humaine des utilisateurs tant sur le plan géographique que sur le plan psychosociologique.
Dans nos travaux, nous étudions le phénomène de diffusion de l’information à deux échelles. À une échelle microscopique, celle de l'individu, nous avons observé les comportements de diffusion selon des traits de personnalité des utilisateurs en analysant les messages qu'ils publient en termes de sentiments et d'émotions.
Pour mener à bien ce travail, nous avons utilisé des outils de collecte et d'extraction de données que nous avons implémentés:
- TwiSpirit décrivant les utilisateurs selon trois styles grâce aux messages qu'ils postent: le style émotionnel, le style social et le style de pensée,
- TwiSen identifiant la polarité et la subjectivité des messages,
- TwiEmo déterminant l'émotion exprimée dans les messages,
- TwiScope collectant des données Twitter à la fois sur les utilisateurs et sur les messages.
À une échelle macroscopique, celle d'une population, nous avons analysé l'évolution du phénomène de diffusion en prenant en compte la dimension géographique des utilisateurs. Pour ce travail, nous avons conçu et implémenté TwiTrends un outil de collecte que nous avons développé permettant la récupération de sujets tendances sur la plateforme Twitter dans 62 pays. Pour aller plus loin dans l'analyse du phénomène de diffusion, nous avons créé HashtagSyn un outil permettant de regrouper des sujets similaires représentés par des hashtags.
À partir de l’étude que nous avons menée au niveau macroscopique sur des cas concrets de diffusion, nous avons proposé le modèle WorldSpread qui innove dans le sens où il se place au niveau des populations des pays et qu'il consiste à identifier en plus du nombre (N) de populations atteintes par l’information, le rayon géographique (R) d'influence autour de ces populations, l’instant de diffusion de l'information (T), la durée de la diffusion (I) et le pays auquel appartiennent ces populations. Le modèle WorldSpread permet de décrire le processus de diffusion en fonction de ces variables et d'identifier les populations qui sont atteintes par une information en connaissant le pays à l'origine de l'information et sa thématique.