Soutenance de thèse de Jean Philippe FAUCONNIER BIARD

Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes : exploitation des structures énumératives

Titre anglais :	Acquisition of semantic relations from layout elements: exploitation of enumerative structures
Ecole Doctorale :	EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité :	INTELLIGENCE ARTIFICIELLE
Etablissement :	Université de Toulouse
Unité de recherche :	UMR 5505 - IRIT : Institut de Recherche en Informatique de Toulouse
Direction de thèse :	Nathalie AUSSENAC-GILLES
Co-encadrement de thèse :	Mouna KAMEL

Cette soutenance a eu lieu mercredi 27 janvier 2016 à 10h00
Adresse de la soutenance : IRIT, Université Paul Sabatier, 118 Route de Narbonne, F-31062 TOULOUSE CEDEX 9 - salle SALLE DES THESES

devant le jury composé de :

Nathalie AUSSENAC-GILLES	Directeur de Recherche	CNRS IRIT	Directeur de thèse
Mouna KAMEL	Maître de Conférences	Université Paul Sabatier / IRIT	Directeur de thèse
Thierry POIBEAU	Directeur de Recherche	CNRS LATTICE	Rapporteur
Pascale SéBILLOT	Professeur des Universités	INSA de Rennes / IRISA	Rapporteur
Núria GALA	Maître de Conférences	Université d'Aix-Marseille / TALEP - LIF	Examinateur
Olivier FERRET	Chargé de Recherche	CEA LIST, LVIC	Examinateur
Béatrice DAILLE	Professeur des Universités	Université de Nantes / LINA	Président

Résumé de la thèse en français :

Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.
Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques.
Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF.
(ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats.

Résumé de la thèse en anglais:

The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.
In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.
This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.
(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.

Mots clés en français :	Traitement Automatique du Langage, Analyse Sémantique, Architecture Textuelle, Théories du Discours, Ontologie,
Mots clés en anglais :	Natural Language Processing, Semantic Analysis, Textual Architecture, Discourse Theory, Ontology,

Soutenance de thèse de Jean Philippe FAUCONNIER BIARD Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes : exploitation des structures énumératives

Soutenance de thèse de Jean Philippe FAUCONNIER BIARD

Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes : exploitation des structures énumératives