Pour interagir efficacement avec son environnement, un robot doit maintenir une base de connaissances structurée, modélisant les entités et leurs relations, mise à jour en continu pour fournir une représentation cohérente et évolutive du monde. Dans notre travail, cette base de connaissance est fondée sur de la logique formelle et prend la forme d'une ontologie permettant de capturer les connaissances implicites: les informations qui ne sont pas explicitement énoncées mais qui peuvent être dérivées par le raisonnement. Cette denière peut ensuite être interrogée pour fournir des justifications pour chaque conclusion déduite.
Un aspect central de cette base de connaissance est la modélisation des actions possibles offertes par les objets ou l'environnement, appelées affordances. Ces interactions dépendent des capacités du robot et des propriétés des objets (par exemple, saisir une tasse, pousser une porte). Elles s'étendent également à la présence d'autres agents, appelées affordances sociales, résultants de leur interaction (par exemple, soulever une table à deux). La prise en compte des affordances intrapersonnelles et interpersonnelles permet d'envisager des actions coopératives dans des environnements multi-agents.
Cette thèse propose un modèle ontologique décrivant un agent via ses composants et permettant l'inférence automatique de ses capacités. Ce modèle est étendu à la description des objets en tenant compte de leurs sous-parties, permettant l'inférence de leur dispositions. Les affordances intrapersonnelles émergent alors comme des relations entre les capacités d'agents et les dispositions des objets, permettant de déduire les actions possibles envers les objets individuels mais également les paires d'objets compatibles via le concept de dispositions réciproques. Nous introduisons également un modèle d'affordances interpersonnelles, représentant la collaboration entre agents aux capacités complémentaires, donnant lieu à de nouvelles possibilités d'action via leur interaction.
Par ailleurs, si les ontologies permettent un raisonnement explicable via des justifications formelles, celles-ci restent difficiles à comprendre pour les non-experts. Les textit{Large Language Models} (LLM) pourraient en offrir une traduction en langage naturel, mais leur aptitude à préserver les structures logiques reste limitée, comme le montrent plusieurs travaux. Pour évaluer cela, nous avons évalué six LLM sur un jeu de données d'inférences avec variations contrôlées (complexité, ordre, concepts utilisés). Les résultats confirment une sensibilité marquée à ces variations et soulignent la nécessité d'un contexte supplémentaire, tel que la règle d'inférence, pour produire des justifications précises.
En résumé, ce travail permet une représentation dynamique et explicable des affordances dans une base de connaissances, pouvant être utile à la planification de tâches en fournissant des abstractions pertinentes et inférées automatiquement. De plus, les justifications générées via le raisonnement peuvent être utilisées pour améliorer l'interaction naturelle avec un utilisateur humain, en lui permettant de comprendre pourquoi le robot peut effectuer une certaine action. |
For a robotic agent to interact effectively with its environment, it must maintain a knowledge base that models entities and their relationships. This knowledge base is continuously updated, providing a coherent and evolving model of the robot's world. Moreover, embedding this knowledge in formal logic enables the construction of a structured representation (ontology) that captures implicit knowledge: information not explicitly stated but derivable through reasoning. This representation can then be queried to provide justifications for each inferred conclusion.
A central aspect of this knowledge base is the representation of potential actions that objects or surroundings afford the robot. This concept, known as affordances, describes possible interactions based on the robot's abilities and the objects' features (e.g., grasping a cup, pushing a door). Affordances also extend to the co-presence of multiple agents, called social affordances, which arise through agents' interactions (e.g., jointly lifting a table). Modeling both intrapersonal and interpersonal affordances allows robots to engage in cooperative behaviors in multi-agent environments.
In this thesis, we propose an ontological pattern to represent an agent's capabilities through its embodiment (i.e., components), enabling autonomous inference of these capabilities. We then extend this to represent objects' dispositions by describing their subparts. With these models of agents and objects, affordances emerge as relations between capabilities and dispositions. Using those representations, we dynamically infer an agent's action possibilities, not only toward individual objects but also between compatible pairs of objects, based on reciprocal dispositions. Furthermore, we introduce ontological patterns to model agent exploitation as a goal-directed interpersonal affordance, reflecting how heterogeneous agents with complementary capabilities can lead to new affordance relations through interaction. Overall, this representation lays a foundation for future work on exploring this knowledge base to provide a task planning module with more relevant and autonomously inferred abstractions.
Additionally, while ontologies offer explainable reasoning through formal justifications, these can be complex for non-experts to understand. Large Language Models (LLMs) could potentially translate these justifications into natural language, but their ability to preserve underlying logical structures is uncertain. Prior research shows LLMs are sensitive to variations in premise order, content, and length, which may affect their reliability for such tasks. To explore this, we tested six language models on an affordance-oriented inference dataset with controlled variations. Results confirmed sensitivity to these changes, indicating LLMs require additional context such as the inference rule to accurately translate formal justifications. This study lays a foundation for future work on multi-step reasoning and fine-tuning LLMs to better handle explanations derived from ontologies.
Together, these contributions enable a dynamic and explainable representation of affordances between agents and objects within the knowledge base. This foundation could enable advanced task planning by autonomously providing insights into available context-specific actions. Moreover, the explainability from ontological reasoning and LLM-based translations could allow human users to query the robot's knowledge to provide natural, understandable explanations of why it can perform a given action. |