Cette thèse s’intéresse aux chaînes de référence (CR) et à leur fonctionnement textuel.
Composées d’expressions référentielles liées entre elles, les CR assurent la continuité référentielle dans le discours et permettent ainsi au lecteur ou à l’interlocuteur de suivre les évolutions des référents dans l’espace textuel, jouant un rôle organisationnel fondamental. Suivant une perspective fonctionnelle, nous considérons que les chaînes de référence contribuent à la création de liens de cohésion.
C’est dans cette optique que nous envisageons notre objet d’étude : les enchaînements d’expressions référentielles. Ces enchaînements sont au cœur des mécanismes de référence et de cohésion, et leur observation fine permet d’accéder aux stratégies discursives mises en place pour introduire, maintenir ou réactiver les référents. L’objectif principal de cette recherche est de dégager des patrons d’enchaînement récurrents et d’interroger leur contribution à l’organisation textuelle. Nous faisons l’hypothèse que ces enchaînements obéissent à des régularités qui reflètent des stratégies discursives dépendant notamment du type ou du genre de texte et de la nature du référent.
Afin de fournir une description systématique des enchaînements des maillons, tout en prenant en compte un large volume de données, nous proposons une méthode outillée de corpus adoptant une approche linéaire — et non plus uniquement globale — des chaînes de référence. Cette méthode combine les techniques du Traitement Automatique des Langues (TAL) avec les outils de l’analyse des séquences, issus des sciences sociales.
L’étude repose sur deux corpus du français écrit annotés selon des modèles différents : AnnoDis et Democrat. L’exploitation de corpus annotés de manière hétérogène constitue un choix méthodologique assumé : plutôt que de percevoir cette hétérogénéité comme un obstacle, nous interrogeons la possibilité d’en tirer parti pour appréhender différents aspects des CR, précisément parce que les phénomènes annotés varient.
Les résultats obtenus sont croisés avec plusieurs facteurs de variation — genre textuel, type de texte, nature du référent — afin d’interroger leur impact sur les formes d’enchaînement observées. Par ailleurs, en s’appuyant sur ces deux corpus diversifiés, notre étude examine l’influence du modèle d’annotation sur la description des CR. |
This dissertation focuses on reference chains (RCs) and their textual functioning.
Composed of referential expressions linked to one another, RCs ensure referential continuity throughout discourse and, through a critical organizational role, enable the reader to follow the evolution of referents across the textual space. From a functional perspective, we consider RCs as contributing to the creation of cohesive ties.
From this perspective, our object of study focuses on sequences of referential expressions. These sequences play a central role in referential and cohesive mechanisms, and their detailed observation sheds light on the discursive strategies used to introduce, maintain, or reactivate referents. The main objective of this research is to identify recurring sequencing patterns and to investigate their contribution to textual organization. We hypothesize that these sequences follow regularities that reflect discursive strategies, depending in particular on the text type, genre, and nature of the referent.
In order to systematically describe sequences of mentions, while also considering a large amount of data, we propose a corpus-based, tool-supported methodology that adopts a linear approach—rather than a purely global one—to the analysis of reference chains. This method combines techniques from Natural Language Processing (NLP) with tools from sequence analysis traditionally used in the social sciences.
The study is based on two written French corpora annotated using different models: AnnoDis and Democrat. The use of heterogeneously annotated corpora is a deliberate methodological choice: rather than treating heterogeneity as a constraint, we explore its potential for capturing diverse aspects of RCs, precisely because the annotated phenomena vary.
The results are analysed in relation to different variation factors—textual genre, text type, and referent type to assess their impact on the observed forms of sequencing. Furthermore, our study investigates the influence of annotation models on the description of RCs. |