Partager cette page :

A contribution to complexity reduction in statistics

le 4 octobre 2013

10h00

ENS Rennes Salle du Conseil
Plan d'accès

Soutenance de thèse de Quentin Paris (ENS Cachan - IRMAR).
Spécialité Mathématiques

Couverture de thèse

Couverture de thèse

L'objectif général de cette thèse est de développer des méthodologies statistiques adaptées au traitement de données complexes. Les problèmes étudiés sont issus de trois contextes différents : la classification non supervisée (clustering), la classification supervisée et la régression.   Dans une première partie nous étudions la classification non supervisée de données modélisées par des champs aléatoires höldériens. Nous commençons par établir une borne théorique pour la performance de l'algorithme des k-means dans le cadre général de données non bornées à valeurs dans un espace de Hilbert. Puis, dans le cadre de données modélisées par des champs aléatoires höldériens, nous proposons une méthode de discrétisation des champs ainsi qu'une adaptation de l'algorithme des k-means. Nous montrons enfin que la performance de cet algorithme pratique est comparable à la performance théorique étudiée en amont et qu'elle est liée au paramètre de régularité höldérienne des champs.   Dans une deuxième partie, nous étudions la classification supervisée de processus de Cox. L'approche suivie est celle du boosting : nous construisons une règle de classification à partir d'une procédure de minimisation convexe. Notre étude est basée sur un calcul explicite du risque de Bayes. Nous obtenons une inégalité oracle pour la performance de notre règle de classification ainsi qu'une borne sur la vitesse de convergence de sa probabilité d'erreur sous une hypothèse générale de régularité de l'intensité du processus.   La dernière partie est consacrée à la réduction de la dimension en régression. Le problème étudié est celui de l'influence de la dimension de la covariable sur les vitesses de convergence des estimateurs de la régression. Nous proposons un modèle général dans lequel la fonction de régression est supposée de forme composite. Notre modèle généralise la méthodologie classique, qui étudie des transformations linéaires de la covariable, au cas de transformations non linéaires. Deux approches sont proposées : la première s'inspire de l'estimateur classique des plus proches voisins et la seconde s'effectue par minimisation d'un risque empirique. Nous étudions la vitesse minimax de convergence des estimateurs de la régression dans le cadre de notre modèle. Nous montrons qu'elle ne dépend pas de la dimension de la covariable mais d'un paramètre important de notre modèle appelé dimension réduite.

Thématique(s)
Recherche - Valorisation
Contact
Quentin Paris

Mise à jour le 30 septembre 2013