Soutenance de thèse de Jean Philippe FAUCONNIER BIARD

Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes : exploitation des structures énumératives


Titre anglais : Acquisition of semantic relations from layout elements: exploitation of enumerative structures
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : INTELLIGENCE ARTIFICIELLE
Etablissement : Université de Toulouse
Unité de recherche : UMR 5505 - IRIT : Institut de Recherche en Informatique de Toulouse
Direction de thèse : Nathalie AUSSENAC-GILLES
Co-encadrement de thèse : Mouna KAMEL


Cette soutenance a eu lieu mercredi 27 janvier 2016 à 10h00
Adresse de la soutenance : IRIT, Université Paul Sabatier, 118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9 - salle SALLE DES THESES

devant le jury composé de :
Nathalie AUSSENAC-GILLES   Directeur de Recherche   CNRS IRIT   Directeur de thèse
Mouna KAMEL   Maître de Conférences   Université Paul Sabatier / IRIT   Directeur de thèse
Thierry POIBEAU   Directeur de Recherche   CNRS LATTICE   Rapporteur
Pascale SéBILLOT   Professeur des Universités   INSA de Rennes / IRISA   Rapporteur
Núria GALA   Maître de Conférences   Université d'Aix-Marseille / TALEP - LIF   Examinateur
Olivier FERRET   Chargé de Recherche   CEA LIST, LVIC   Examinateur
Béatrice DAILLE   Professeur des Universités   Université de Nantes / LINA   Président


Résumé de la thèse en français :  

Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.
Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques.
Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF.
(ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats.

 
Résumé de la thèse en anglais:  

The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.
In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.
This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.
(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.

Mots clés en français :Traitement Automatique du Langage, Analyse Sémantique, Architecture Textuelle, Théories du Discours, Ontologie,
Mots clés en anglais :   Natural Language Processing, Semantic Analysis, Textual Architecture, Discourse Theory, Ontology,