Soutenance de thèse de Léa LAPORTE

Sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle.


Titre anglais : Feature selection for learning-to-rank in information retrieval : toward a contexte-aware approach
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : IMAGE, INFORMATION, HYPERMEDIA
Etablissement : Université de Toulouse
Unité de recherche : UMR 5505 - IRIT : Institut de Recherche en Informatique de Toulouse


Cette soutenance a eu lieu lundi 18 novembre 2013 à 10h30
Adresse de la soutenance : IRIT Université Toulouse III 118 Route de Narbonne 31062 Toulouse Cedex 9 - salle Jean Herbrand

devant le jury composé de :
Josiane MOTHE   Professeur des Universités   IUFM - Université Toulouse II   Directeur de thèse
Sébastien DéJEAN   Ingénieur de Recherche   Université Toulouse III   CoDirecteur de thèse
Eric GAUSSIER   Professeur des Universités   Université J. Fourier (Grenoble I)   Rapporteur
Front AGNèS   Maitre de Conférences   Université Grenoble I   Rapporteur
Jian-Yun NIE   Professeur titulaire   DIRO - Université de Montréal   Examinateur
Aurélien GARIVIER   Professeur des universités   Institut Mathématique de Toulouse (IMT) CNRS UMR 5219 Université Paul-Sabatier   Examinateur
Dousset BERNARD   Professeur des Universités   IRIT, Université Paul Sabatier   Examinateur
Benjamin PIWOWARSKI   Chargé de Recherche   UMPC-LIP6, CNRS   Examinateur


Résumé de la thèse en français :  

L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche.
Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI.
Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes).
Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux.

 
Résumé de la thèse en anglais:  

Our work is focused on context-aware learning to rank for information retrieval. We propose to adapt the ranking to the informational need of users.
In the field of learning to rank, several features, including query-document similarities, query-based features and document-based features, are combined by functions in order to predict the optimal ranking of documents according to a query. An emerging issue is to adapt the learning to rank process to the user's informational need.
We propose a system than can take into account the user's informational need in order to adapt the final ranking of document. When a query is submitted, the system is able to:
- detect the type of informational need,
- select the best suited ranking function,
- return the ranking which has been adapted to the informational need.
In order to do so, we have develop novel ranking algorithms that are able to select the best relevant features for a given informational need. We proposed to use sparse SVM with convex and non convex regularizations in order to proceed to feature selection. SVM are machine learning methods well-known for their performance and adaptability. Experimental results on benchmarks datasets and commercial datasets have shown the effectiveness of our approaches.
We have also proposed a click model that is particularly well suited to predict relevance on multiple clickable documents. This model allows us to generate automatically large scale benchmarks from a commercial search engine.
The generated datasets and the feature selection algorithms are then used by the system to detect types of user's need and to automatically learn ranking functions well fitted for each type of need.

Mots clés en français :ordonnancement,contextualisation,géolocalisation,sélection_de_variables,apprentissage_statistique,RI
Mots clés en anglais :   learning-to-rank,ranking,IR systems,context-aware search,feature_selection,statistical_learning