A contribution to complexity reduction in statistics
le 4 octobre 2013
10h00
ENS Rennes Salle du Conseil
Plan d'accès
Soutenance de thèse de Quentin Paris (ENS Cachan - IRMAR).
Spécialité Mathématiques
L'objectif général de cette thèse est de développer des méthodologies statistiques adaptées au traitement de données complexes. Les problèmes étudiés sont issus de trois contextes différents : la classification non supervisée (clustering), la classification supervisée et la régression.
Dans une première partie nous étudions la classification non supervisée de données modélisées par des champs aléatoires höldériens. Nous commençons par établir une borne théorique pour la performance de l'algorithme des k-means dans le cadre général de données non bornées à valeurs dans un espace de Hilbert. Puis, dans le cadre de données modélisées par des champs aléatoires höldériens, nous proposons une méthode de discrétisation des champs ainsi qu'une adaptation de l'algorithme des k-means. Nous montrons enfin que la performance de cet algorithme pratique est comparable à la performance théorique étudiée en amont et qu'elle est liée au paramètre de régularité höldérienne des champs.
Dans une deuxième partie, nous étudions la classification supervisée de processus de Cox. L'approche suivie est celle du boosting : nous construisons une règle de classification à partir d'une procédure de minimisation convexe. Notre étude est basée sur un calcul explicite du risque de Bayes. Nous obtenons une inégalité oracle pour la performance de notre règle de classification ainsi qu'une borne sur la vitesse de convergence de sa probabilité d'erreur sous une hypothèse générale de régularité de l'intensité du processus.
La dernière partie est consacrée à la réduction de la dimension en régression. Le problème étudié est celui de l'influence de la dimension de la covariable sur les vitesses de convergence des estimateurs de la régression. Nous proposons un modèle général dans lequel la fonction de régression est supposée de forme composite. Notre modèle généralise la méthodologie classique, qui étudie des transformations linéaires de la covariable, au cas de transformations non linéaires. Deux approches sont proposées : la première s'inspire de l'estimateur classique des plus proches voisins et la seconde s'effectue par minimisation d'un risque empirique. Nous étudions la vitesse minimax de convergence des estimateurs de la régression dans le cadre de notre modèle. Nous montrons qu'elle ne dépend pas de la dimension de la covariable mais d'un paramètre important de notre modèle appelé dimension réduite.
- Thématique(s)
- Recherche - Valorisation
- Contact
- Quentin Paris
Mise à jour le 30 septembre 2013
Jury :
- Fabrice GAMBOA, Professeur à l'Université Paul Sabatier, Toulouse / rapporteur
- Gabor LUGOS, Professeur à l'Université Pompeu Fabra, Barcelone / rapporteur
- Gérard BIAU, Professeur à L'Université Pierre et Marie Curie, Paris / examinateur
- Éric GAUTIER, Professeur à l'ENSAE-ParisTech, Malakoff / examinateur
- Benoît CADRE, Professeur à l'ENS Cachan - Bretagne / directeur de thèse
- Bruno PELLETIER, Professeur à l'Université Rennes 2 / directeur de thèse