Les robots qui partagent leur espace de travail avec des humains doivent être capables de réagir de manière sûre à des changements imprévus de leur environnement, sans compromettre leur vitesse, leur précision ou leur conformité. Si les approches fondées sur l’apprentissage automatique ont considérablement amélioré leur dextérité et leur capacité de généralisation, elles ne fournissent cependant aucune garantie formelle de sécurité. À l’inverse, les méthodes classiques de contrôle optimal offrent de telles garanties, mais peinent à gérer des environnements encombrés et dynamiques en temps réel. Cette thèse vise à combler cette lacune en combinant les avantages des deux paradigmes.
Nous intégrons d’abord une contrainte stricte de distance dans une boucle de commande prédictive tournant à 100 Hz, appliquée à un bras manipulateur à 7 degrés de liberté contrôlé en couple. Grâce à des gradients analytiques, le contrôleur garantit que le robot reste en dehors d’une marge de sécurité spécifiée à chaque pas de contrôle.
Cependant, l’utilisation exclusive d’une contrainte de distance se révèle trop conservatrice dans des environnements exigus ou fortement encombrés. Pour surmonter cette limitation, nous introduisons une contrainte d’amortissement de la vitesse relative entre le robot et les obstacles à proximité. Cette formulation permet au robot de s’approcher plus près des obstacles tout en maintenant une marge de sécurité, et d’atteindre des zones confinées, telles que l’intérieur d’un bac ou d’une étagère. Afin de garantir une exécution temps réel, nous dérivons les gradients analytiques de cette contrainte pour des obstacles modélisés sous forme ellipsoïdale.
Toutefois, les contrôleurs temps réel que nous utilisons restent sensibles aux minima locaux, en particulier dans des environnements complexes et encombrés. Pour remédier à cette limitation, nous proposons une approche hybride qui combine la génération de trajectoires par apprentissage avec une phase d’optimisation par contrôle optimal. Plus précisément, nous conditionnons un modèle de diffusion sur des représentations d’objets extraites à l’aide d’un mécanisme de type Slot Attention. Ce modèle est entraîné à partir de scènes synthétiques densément peuplées, et permet d’échantillonner des trajectoires dynamiquement réalisables et exemptes de collisions. Les trajectoires générées servent alors d’initialisation (warm start) au solveur de contrôle optimal, facilitant sa convergence vers des solutions faisables tout en préservant les garanties de sécurité formelles.
Cette thèse apporte trois contributions principales : (i) une architecture d'évitement de collision utilisant commande prédictive formellement sûre, (ii) une formulation de l'évitement de collision prenant en compte l’amortissement de la vitesse d'approche du robot aux obstacles, capable de gérer des environnements dynamiques, et (iii) une chaîne de traitement de contrôle augmentée par un modèle de diffusion, qui améliore significativement les performances du contrôleur dans des scènes encombrées. L’ensemble des contributions a été publié en open source et validé sur des robots réels tels que le Franka Emika Panda et le KUKA LBR iiwa. |
Robots that share workspaces with humans must be able to react safely to unforeseen changes in their environment, without sacrificing speed, precision, or compliance. While data-driven policies have greatly improved dexterity and generalization, they lack formal safety guarantees. In contrast, classical optimal control provides such guarantees, but often struggles to handle cluttered, dynamic environments in real time. This thesis aims to bridge this gap by combining the strengths of both paradigms
We first integrate an hard distance-based constraint into a 100 Hz model predictive control loop for a torque-controlled 7 degrees-of-freedom manipulator. Using closed-form gradients, the controller guarantees that the robot remains outside a user-defined safety margin at every control step.
However, relying solely on distance constraints becomes overly conservative in tight or cluttered spaces. To address this, we introduce a velocity damper constraint that regulates the robot's relative approach speed with respect to nearby obstacles. This constraint allows the robot to safely approach closer to obstacles and reach deeper into confined areas, such as boxes or shelves, without compromising safety. To reach real-time efficiency, we derive analytical gradients for ellipsoidal obstacle models.
However, the real-time controllers we employ remain sensitive to local minima, particularly in complex and cluttered environments. To address this limitation, we propose a hybrid approach that combines learning-based trajectory generation with an optimization phase based on model predictive control. More specifically, we condition a diffusion model on object-centric representations extracted using a Slot Attention mechanism. This model is trained on densely populated synthetic scenes and is used to sample dynamically feasible, collision-free trajectories. The resulting trajectories serve as warm-starts for the optimal control solver, thereby improving convergence towards feasible solutions while preserving formal safety guarantees.
The thesis delivers three main contributions: (i) a provably safe MPC architecture with closed-form derivatives, (ii) a velocity damper formulation capable of handling moving and cluttered environments, and (iii) a diffusion-augmented control pipeline that improves planning success in real-world scenes. All contributions have been released as open source and were validated on real hardware, such as the Franka Emika Panda and the KUKA LBR iiwa. |