L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche.
Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI.
Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes).
Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux. |
Our work is focused on context-aware learning to rank for information retrieval. We propose to adapt the ranking to the informational need of users.
In the field of learning to rank, several features, including query-document similarities, query-based features and document-based features, are combined by functions in order to predict the optimal ranking of documents according to a query. An emerging issue is to adapt the learning to rank process to the user's informational need.
We propose a system than can take into account the user's informational need in order to adapt the final ranking of document. When a query is submitted, the system is able to:
- detect the type of informational need,
- select the best suited ranking function,
- return the ranking which has been adapted to the informational need.
In order to do so, we have develop novel ranking algorithms that are able to select the best relevant features for a given informational need. We proposed to use sparse SVM with convex and non convex regularizations in order to proceed to feature selection. SVM are machine learning methods well-known for their performance and adaptability. Experimental results on benchmarks datasets and commercial datasets have shown the effectiveness of our approaches.
We have also proposed a click model that is particularly well suited to predict relevance on multiple clickable documents. This model allows us to generate automatically large scale benchmarks from a commercial search engine.
The generated datasets and the feature selection algorithms are then used by the system to detect types of user's need and to automatically learn ranking functions well fitted for each type of need. |