Pour collaborer efficacement avec des humains dans des environnements réalistes tels que des restaurants ou des cuisines, un robot doit comprendre ce que font les agents autour de lui, estimer leurs intentions et objectifs, et adapter son comportement en respectant les conventions sociales implicites. Ces environnements présentent des défis majeurs : le robot ne peut observer continuellement tous les agents (occlusions visuelles, tâches simultanées), il doit reconnaître des actions et tâches malgré des observations partielles, et coordonner ses décisions en tenant compte du contexte social et des rôles de chacun. Les architectures cognitives existantes ne modélisent pas explicitement les pratiques sociales ni les plans partagés, et ne supportent pas nativement la gestion simultanée de plusieurs personnes avec des rôles différents.
Cette thèse développe une reconnaissance d'actions robuste aux observations partielles. Les humains effectuent rarement des actions isolées sans but : une personne qui prend un objet puis se déplace poursuit un objectif (servir un client, préparer un plat). Le système intègre une reconnaissance de tâches hiérarchiques qui utilise les actions reconnues pour générer des hypothèses sur les objectifs poursuivis, même lorsque certaines étapes ne sont pas observées.
Ces reconnaissances prennent sens dans un contexte social donné : dans un restaurant, comprendre qu'une personne est serveur et une autre client change radicalement l'interprétation de leurs actions. Les Practice Frames modélisent ces pratiques sociales en définissant explicitement les rôles avec leurs capacités et attentes mutuelles, permettant une attribution dynamique selon le contexte. Le système détecte ces attentes et déclenche les actions appropriées en fonction des capacités disponibles et des besoins identifiés.
Pour coordonner la collaboration, les plans partagés représentent qui fait quoi avec une séparation entre ce qui est connu et ce qui reste à faire, permettant de suivre l'exécution collaborative. L'ensemble repose sur une représentation unifiée des connaissances assurant l'intégration cohérente de ces composants.
L'architecture supporte la gestion simultanée de plusieurs personnes : le système reconnaît les actions et tâches de plusieurs individus, attribue dynamiquement des rôles sociaux (serveur, client, cuisinier, assistant) selon le contexte, et maintient un contexte individuel pour chaque personne (rôle actuel, actions en cours, localisation). La gestion du contexte s'opère à deux niveaux : contexte social (rôles, attentes mutuelles, pratiques sociales, normes) et contexte situationnel (positions des agents, état de l'environnement, objets disponibles, tâches en cours).
Le système s'appuie sur une base de connaissances combinant informations conceptuelles (objets, rôles, relations) et temporelles (événements, séquences d'actions, historiques par personne), maintenues à jour en temps réel. Ces reconnaissances alimentent une supervision qui détecte les changements de contexte, gère les priorités selon les rôles et pratiques actives, coordonne l'exécution de missions, et adapte dynamiquement le comportement du robot aux situations sociales.
Cette thèse propose un cadre intégrant reconnaissance hiérarchique actions-tâches, modélisation des pratiques sociales avec rôles et attentes, plans partagés pour la collaboration, et gestion de plusieurs personnes avec des contextes différents. La reconnaissance robuste aux observations partielles, associée à la gestion du contexte social et situationnel, permet de gérer simultanément plusieurs personnes avec des rôles différents dans des environnements réalistes. Ce travail fournit un cadre pour la robotique sociale collaborative applicable aux environnements de service (restaurants, hôtels) et assistants domestiques, permettant au robot d'expliquer ses décisions et de savoir quand communiquer.
|
To collaborate efficiently with humans in realistic environments such as restaurants or retail stores, robots must understand what surrounding people are doing, estimate their intentions and goals, and adapt their behavior accordingly while respecting implicit social conventions. These environments present major challenges: the robot cannot continuously observe all agents (due to visual occlusions and multiple simultaneous tasks), it must recognize actions and tasks from partial observations, and it must coordinate its decisions by considering the social context and each person's role.
Existing cognitive architectures do not explicitly model social practices or shared plans, and do not natively support simultaneous management of multiple people with different roles and contexts. This thesis presents an action recognition system based on semantic facts, robust to partial observations. Humans rarely perform isolated, purposeless actions: a person who picks up an object and then moves is not performing two independent actions but pursuing a goal (serving a customer, preparing a dish). The system therefore integrates hierarchical task recognition, using recognized actions to generate hypotheses about pursued goals, even when some steps are not observed.
These recognitions only make sense within a given social context: in a restaurant, understanding that one person is a waiter and another is a customer radically changes the interpretation of their actions. To represent such social contexts, we introduce Practice Frames to model social practices. Practice Frames explicitly define each participant's roles, capabilities, and mutual or unilateral expectations, enabling dynamic role attribution according to context. When an expectation is detected, the system triggers appropriate actions based on available capabilities and identified needs.
To coordinate collaboration, we build upon SharedPlans representations, which describe who does what and distinguish between what is known and what remains to be done, allowing tracking of collaborative execution. The entire approach relies on a unified knowledge representation ensuring coherent integration of these components.
The architecture supports simultaneous management of multiple people: the system can recognize actions and tasks of several individuals at once, dynamically assign social roles (waiter, customer, cook, assistant) according to context, and maintain an individual context for each person (current role, ongoing actions, location). Context management operates at two levels: social context (roles, mutual expectations, social practices, norms) and situational context (agent positions, environment state, available objects, ongoing tasks).
The system is based on a knowledge base combining conceptual information (objects, roles, relationships) and temporal information (events, action sequences, per-person histories), updated in real time. These recognitions feed a supervision system that detects context changes, manages priorities according to active roles and practices, coordinates mission execution, and dynamically adapts the robot's behavior to social situations.
The action and task recognition systems have been tested on robotic platforms. The full architecture is functional and has been validated in simulation on multiple scenarios. This thesis proposes both a theoretical framework and a practical implementation of a robotic architecture enabling interaction management with multiple humans, taking into account both social and situational contexts. Robust recognition under partial observation, combined with context management, allows the robot to handle multiple people with different roles in realistic environments. This work provides a framework for collaborative social robotics, applicable to service environments and domestic assistants. |