Analyse en composantes principales robuste et efficace et ses applications en actuariat

Responsable :
Gagnon, Philippe

Établissement :
Université de Montréal

Année de concours :
2021-2022

L’ère du « big data » représente une opportunité en or pour les méthodes statistiques de démontrer leur polyvalence, grâce à leurs applications dans un large éventail de domaines, incluant l’actuariat. Afin de saisir cette opportunité, les chercheurs et statisticiens doivent être conscients des défis associés à ces jeux de données massifs afin de proposer des solutions adaptées.

Nous savons tous que quantité ne rime pas avec qualité, et c’est particulièrement vrai pour les données. Il est difficile pour les méthodes statistiques d’identifier des tendances dans un jeu de données de mauvaise qualité contenant des valeurs erronées. Les méthodes robustes face aux valeurs aberrantes peuvent fournir de meilleurs résultats dans cette situation. Mon objectif principal avec ce projet est d’introduire une méthode d’analyse en composantes principales (ACP) bayésienne robuste et de démontrer que cette méthodologie procure une valeur ajoutée en actuariat. L’ACP est utilisée en actuariat pour, par exemple, réduire la dimension de jeux de données de courbes de rendement afin de résumer l’information et permettre de la visualiser, et afin de faire des prédictions de la mortalité par groupe d’âges. L’ACP qui sera proposée aura une qualité remarquable : elle produira des résultats basés uniquement sur les valeurs non aberrantes asymptotiquement, lorsque les valeurs aberrantes s’éloignent de plus en plus, tout en générant des composantes principales similaires à l’approche traditionnelle en l’absence de valeurs aberrantes. L’impact des valeurs aberrantes disparaît en fait progressivement, reflétant qu’au début, lorsqu’elles ne sont pas si éloignées, il y a une incertitude quant à savoir si ce sont vraiment des valeurs aberrantes ou non. Les méthodes reflétant automatiquement cette incertitude sont particulièrement utiles dans des contextes où les jeux de données sont de grandes dimensions, comme c’est le cas pour les jeux de données massifs.

Proposer des modèles robustes n’est pas tout, encore faut-il s’assurer que les méthodes numériques requises pour l’inférence peuvent produire des résultats fiables en un temps raisonnable. Pour cela, des algorithmes basés sur des méthodes numériques de pointe seront proposées. Ceux-ci présenteront de façon automatique l’inférence désirée, qu’il s’agisse d’estimation ponctuelle ou d’intervalles de crédibilités. La complexité des modèles est élevée dans le cas considéré car les matrices contenant les composantes principales sont restreintes à l’espace des matrices orthogonales. Pour les estimations ponctuelles, un algorithme d’optimisation faisant des pas en suivant la direction du gradient tout en respectant cette restriction sera exploré et adapté. Pour les intervalles, il est nécessaire d’échantillonner de la distribution a posteriori. Ceci sera fait de façon approximative en utilisant une approche variationnelle de Bayes (variational Bayes). Cette approche est reconnue pour produire des résultats fiables en un temps raisonnable même lorsque le jeu de données est massif.

Des modèles statistiques robustes estimés automatiquement à l’aide de méthodes numériques efficaces correspondent à : des algorithmes d’apprentissage statistique robustes et efficaces. L’avantage des procédures statistiques (par rapport aux algorithmes d’apprentissage automatique typiques par exemple) est qu’elles permettent la quantification des risques et des incertitudes. Cette quantification se trouve au c?ur du rôle des actuaires.