Soutenance de thèse de Silvia FEDERZONI

Vers une typologie des chaînes de référence à la lumière de corpus annotés diversifiés


Titre anglais : Towards a Typology of Reference Chains in the Light of Diverse Annotated Corpora
Ecole Doctorale : CLESCO - Comportement, Langage, Éducation, Socialisation, Cognition
Spécialité : Sciences du langage
Etablissement : Université Toulouse II Jean Jaurès
Unité de recherche : UMR 5263 - CLLE - Unité Cognition, Langues, Langage, Ergonomie
Direction de thèse : Cécile FABRE- Lydia-Mai HO-DAC


Cette soutenance aura lieu vendredi 03 octobre 2025 à 9h00
Adresse de la soutenance : Maison de la Recherche Campus Mirail 5, allée Antonio Machado 31058 Toulouse cedex 9 - salle D29

devant le jury composé de :
Cécile FABRE   Professeure des universités   Université Toulouse - Jean Jaurès   Directeur de thèse
Frédéric  LANDRAGIN   Directeur de recherche   CNRS Île-de-France Gif-sur-Yvette   Rapporteur
Marion FOSSARD   Professeure des universités   Université de Neuchâtel   Rapporteur
Lydia-Mai HO-DAC   Maîtresse de conférences   Université Toulouse - Jean Jaurès   CoDirecteur de thèse
Josette REBEYROLLE   Maîtresse de conférences   Université Toulouse - Jean Jaurès   Examinateur
Catherine SCHNEDECKER   Professeure émérite   Université de Strasbourg   Examinateur


Résumé de la thèse en français :  

Cette thèse s’intéresse aux chaînes de référence (CR) et à leur fonctionnement textuel.
Composées d’expressions référentielles liées entre elles, les CR assurent la continuité référentielle dans le discours et permettent ainsi au lecteur ou à l’interlocuteur de suivre les évolutions des référents dans l’espace textuel, jouant un rôle organisationnel fondamental. Suivant une perspective fonctionnelle, nous considérons que les chaînes de référence contribuent à la création de liens de cohésion.
C’est dans cette optique que nous envisageons notre objet d’étude : les enchaînements d’expressions référentielles. Ces enchaînements sont au cœur des mécanismes de référence et de cohésion, et leur observation fine permet d’accéder aux stratégies discursives mises en place pour introduire, maintenir ou réactiver les référents. L’objectif principal de cette recherche est de dégager des patrons d’enchaînement récurrents et d’interroger leur contribution à l’organisation textuelle. Nous faisons l’hypothèse que ces enchaînements obéissent à des régularités qui reflètent des stratégies discursives dépendant notamment du type ou du genre de texte et de la nature du référent.
Afin de fournir une description systématique des enchaînements des maillons, tout en prenant en compte un large volume de données, nous proposons une méthode outillée de corpus adoptant une approche linéaire — et non plus uniquement globale — des chaînes de référence. Cette méthode combine les techniques du Traitement Automatique des Langues (TAL) avec les outils de l’analyse des séquences, issus des sciences sociales.
L’étude repose sur deux corpus du français écrit annotés selon des modèles différents : AnnoDis et Democrat. L’exploitation de corpus annotés de manière hétérogène constitue un choix méthodologique assumé : plutôt que de percevoir cette hétérogénéité comme un obstacle, nous interrogeons la possibilité d’en tirer parti pour appréhender différents aspects des CR, précisément parce que les phénomènes annotés varient.
Les résultats obtenus sont croisés avec plusieurs facteurs de variation — genre textuel, type de texte, nature du référent — afin d’interroger leur impact sur les formes d’enchaînement observées. Par ailleurs, en s’appuyant sur ces deux corpus diversifiés, notre étude examine l’influence du modèle d’annotation sur la description des CR.

 
Résumé de la thèse en anglais:  

This dissertation focuses on reference chains (RCs) and their textual functioning.
Composed of referential expressions linked to one another, RCs ensure referential continuity throughout discourse and, through a critical organizational role, enable the reader to follow the evolution of referents across the textual space. From a functional perspective, we consider RCs as contributing to the creation of cohesive ties.
From this perspective, our object of study focuses on sequences of referential expressions. These sequences play a central role in referential and cohesive mechanisms, and their detailed observation sheds light on the discursive strategies used to introduce, maintain, or reactivate referents. The main objective of this research is to identify recurring sequencing patterns and to investigate their contribution to textual organization. We hypothesize that these sequences follow regularities that reflect discursive strategies, depending in particular on the text type, genre, and nature of the referent.
In order to systematically describe sequences of mentions, while also considering a large amount of data, we propose a corpus-based, tool-supported methodology that adopts a linear approach—rather than a purely global one—to the analysis of reference chains. This method combines techniques from Natural Language Processing (NLP) with tools from sequence analysis traditionally used in the social sciences.
The study is based on two written French corpora annotated using different models: AnnoDis and Democrat. The use of heterogeneously annotated corpora is a deliberate methodological choice: rather than treating heterogeneity as a constraint, we explore its potential for capturing diverse aspects of RCs, precisely because the annotated phenomena vary.
The results are analysed in relation to different variation factors—textual genre, text type, and referent type to assess their impact on the observed forms of sequencing. Furthermore, our study investigates the influence of annotation models on the description of RCs.

Mots clés en français :Discours, Chaînes de référence, Corpus annotés, Continuité référentielle, TAL, Analyse des séquences,
Mots clés en anglais :   Reference chains, NLP, Referential continuity, Annotated corpora, Discourse, Sequence analysis,