L'identification des discours extrémistes violents en contexte numérique : Une approche combinant la linguistique forensique et la recherche de marqueurs d'identité collective.

Chercheur :
Bérubé, Maxime

Établissement :
Université du Québec à Trois-Rivières (UQTR)

Année de concours :
2021-2022

La présente recherche vise à contribuer à la compréhension de l’identité collective jihadiste et à développer de nouvelles capacités en termes de détection des discours haineux et extrémistes violents en contexte numérique. En cette ère où l’on assiste à une augmentation fulgurante de la quantité de données numériques pouvant être exploitée à des fins d’enquête, il s’avère crucial de mettre au point des techniques efficace et efficiente pour le traitement des données massives par les agences de sécurité (McGuire and Holt, 2017; Rossy et al., 2018). En effet, des défis de taille se pose lors de l’exploitation de ses données massives couramment appelées «big data», notamment lorsque les forces policières doivent repérer des contenus suspects sur Internet et les médias sociaux afin de prévenir des actes de terrorisme. En effet, le volume, la variété et la vélocité des masses de données numériques limitent le recours et la performance des méthodes d’analyse conventionnelles (Williams et al., 2017). De nouvelles techniques ont donc été développées au cours des dernières années dans le but de faciliter le traitement et l’analyse de ce type de traces laissées par les utilisateurs dans l’environnement numérique, mais ces efforts méritent toujours d’être poursuivis (Dupont et al., 2020; Scrivens, 2020).

Afin de contribuer au développement des connaissances en ce sens, la présente étude repose sur la prémisse que les mouvements extrémistes violents sont caractérisés par une identité collective particulière et que celle-ci transparaît dans les croyances, les expressions langagières, les symboles, les codes, les normes et les valeurs qu’ils véhiculent (Hegghammer, 2017; Melucci, 1996; Van Gorp, 2007; Zald, 1996). Dans cette perspective, nous soutenons qu’il est possible de détecter des contenus extrémistes violents dans des masses de documents textuels en recherchant ces particularités langagières qui les distinguent et qui leur sont surtout exclusives. Pour ce faire, nous aurons recours à une approche combinant la linguistique forensique et l’intelligence artificielle afin de détecter les contenus spécifiquement liés au salafisme jihadiste, soit la branche violente du salafisme souvent associée à l’extrémisme violent. Nous proposons une stratégie de recherche s’appuyant sur la détection d’entités lexicales (lexicon-based detection), pour laquelle le lexique de référence sera construit par la comparaison de collections de documents salafistes jihadistes à d’autres collections de documents ayant trait aux courants non-violents du salafisme, soit ses courants quiétistes et réformistes.

Les données utilisées pour la construction du corpus jihadiste sont principalement des transcriptions de vidéos et des magazines produits par al-Qaïda et État islamique, les organisations les plus explicitement violentes du mouvement jihadiste, qui seront comparés à des transcriptions de discours politiques et de prêches de représentants religieux influents des mouvances quiétistes et réformistes. À terme, cette stratégie permettra de valider de notre hypothèse initiale par expérimentation, et ultimement de détecter la présence d’entités lexicales jihadistes dans divers corpus de données (discours de prédicateurs controversés, profils de médias sociaux suspects, etc.).