Processus de rang et applications statistiques en grande dimension - SSA - Service de santé des armées Accéder directement au contenu
Thèse Année : 2022

Processus de rang et applications statistiques en grande dimension

Rank processes and statistical applications in high dimension

Myrto Limnios

Résumé

This research project aims at developing mathematical and algorithmic tools to study and evaluate the level of similarity between two complex datasets in high-dimension: vectors, multivariate signals, trajectories, signals on graphs. It answers fundamental questions related to quantification in experimental science, particularly in life sciences, neurosciences, and clinical applications.We propose a generalization of linear rank statistics using methods developed in machine learning. Indeed, thanks to bipartite ranking approaches, we articulate an in-depth and nonparametric study of those statistics based on two statistical samples, using statistical learning theory. More precisely, ranking methods circumvent the lack of relation order in high-dimensional spaces by learning a scoring function. The latter, defined on the ambient space and valued in the real line, aims at inducing an order on the multivariate observations by maximizing the generalized rank statistic.We propose the first application in statistical hypothesis testing by combining decision (acceptance/rejection) of the null hypothesis and learning a model describing the data. More specifically, we study two-sample homogeneity tests. Then, two applications in data analysis are introduced and developed using rank statistics as a performance criterion. They are applied to bipartite ranking and anomaly detection problems and specify their relation to state-of-the-art formulations. Finally, and motivated to propose tools adapted to experimental sciences and in the context of biomedical data studies, we introduce an interpretable method for the statistical comparison of two clinical populations and a stochastic generative model of specific longitudinal data.
Ce projet de recherche propose de développer des outils mathématiques et algorithmiques pour étudier et comparer deux jeux de données complexes en grande dimension: vecteurs, signaux multivariés, trajectoires, signaux sur graphes. Il répond à des enjeux fondamentaux liés à la quantification dans les sciences expérimentales, notamment les sciences de la vie et par-là même les neurosciences et ses applications cliniques.Pour se faire, nous proposons une généralisation des statistiques linéaires de rang à l’aide d’outils développés en apprentissage automatique. En effet, et grâce à des techniques d’ordonnancement biparti, nous articulons une étude avancée et non-paramétrique de ces statistiques à deux échantillons statistiques sous l’angle de la théorie de l’apprentissage statistique. Plus précisément, les méthodes d’ordonnancement permettent de pallier l’absence de relation d’orde dans les espaces de grande dimension grâce à l’apprentissage d’une fonction de score. Définie sur l’espace ambiant et à valeur réelle, cette dernière a pour but d’induire un ordre sur les observations multivariées en maximisant la statistique de rang généralisée.Nous proposons une première application dans le cadre des tests d’hypothèses statistiques, en associant décision (acceptation/rejet) de l'hypothèse nulle à l’apprentissage d'un modèle décrivant les données. Nous étudions, plus précisément, les tests d’homogénéité à deux échantillons. Ensuite, deux applications en analyse de données sont introduites et développées en utilisant les statistiques de rang comme critère de performance. Nous les appliquons aux problèmes d’ordonnancement bipartie et d’apprentissage des données extrêmes, ou anomalies, et précisons leurs relations à l’état de l’art. Enfin, dans la volonté de proposer des outils adaptés aux données issues des sciences expérimentales et dans le cadre de l’étude des données biomédicales, nous introduisons une méthode interprétable de comparaison statistique de deux populations cliniques ainsi que d’un modèle stochastique génératif de données longitudinales particulières.
Fichier principal
Vignette du fichier
100728_LIMNIOS_2022_archivage.pdf (15.34 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03700901 , version 1 (21-06-2022)

Identifiants

  • HAL Id : tel-03700901 , version 1

Citer

Myrto Limnios. Processus de rang et applications statistiques en grande dimension. Statistics [math.ST]. Université Paris-Saclay, 2022. English. ⟨NNT : 2022UPASM006⟩. ⟨tel-03700901⟩
282 Consultations
63 Téléchargements

Partager

Gmail Facebook X LinkedIn More