Chercheuse : 
Audrey Durand

Établissement : 
Université Laval

Année de concours : 
2022-2023

Étant donné leur capacité à traiter des données complexes, les méthodes d’apprentissage automatique (Machine Learning, ML), plus spécifiquement d’apprentissage profond (Deep Learning, DL), se présentent comme une avenue prometteuse pour construire des modèles prédictifs robustes à partir de quantités massives de données médicales. Ces données sont généralement rendues disponibles à travers une collection de sources, par exemple des hôpitaux, et, pour des raisons de confidentialité et de sécurité, ne sont typiquement pas allouées à sortir de leur établissement respectif ni à être partagées entre les différentes sources. Malheureusement, en se limitant aux données offertes par les sources de manière indépendante, le ML/DL ne peut pas être exploité à son plein potentiel. En permettant d’entraîner des modèles de ML/DL de manière collaborative, sans partager les données elles-mêmes, l’apprentissage fédéré (Federated Learning, FL) se présente comme une solution potentielle à ce problème. Ce paradigme d’apprentissage vise à tirer avantage de la grande quantité de donnée accessibles à travers différentes sources en produisant des modèles de ML/DL de manière locale à chaque institution participante, puis à partager les caractéristiques des modèles (par exemple, les poids des réseaux de neurones) plutôt que les données elles-mêmes et à agréger les caractéristiques des modèles produits sur différentes sources. Plusieurs défis doivent cependant encore être relevés avant que les approches de ML/DL puissent complètement bénéficier du FL de manière fiable et robuste. Par exemple, il a été montré que les stratégies classiques sont susceptibles d’échouer dans des contextes où l’hypothèse de données indépendantes et identiquement distribuées (Independent and Identically distributed, IID) n’est pas respectée, par exemple lorsque les données provenant de différentes sources ont été prélevées dans établissements différents, avec des appareils de marques différentes et auprès de populations à démographies potentiellement différentes. Le projet de recherche proposé vise à mettre à profit des outils de RL récents, plus spécifiquement les méthodes destinées aux environnements de bandits, dans le but de développer des stratégies novatrices abordant des enjeux fondamentaux en FL. Concrètement, ce projet impliquera 1) d’appliquer des méthodes de bandits adversaires pour contrer l’enjeu des données non-IID; 2) d’investiguer des stratégies d’apprentissage par transfert (Transfer Learning, TL) pour identifier les sources ayant un effet similaire sur un modèle donné; et 3) d’analyser l’impact de ces stratégies pour obtenir des garanties sur leur performance et caractériser leur utilisation des différentes sources. Des expériences seront réalisées sur des données synthétiques, puis seront déployées sur des vraies données à travers des collaborations multidisciplinaires. Ces dernières contribueront directement à réduire le gap entre la théorie et la pratique, tout en ayant un impact immédiat dans les domaines collaborateurs. Le projet sera réalisé par un étudiant à la maîtrise, avec le support d’un stagiaire.