Cette thèse cherche à établir des preuves empiriques en faveur de la coordination temporelle — en particulier la synchronie neuronale — en tant que mécanisme viable pour la fusion des attributs visuels. Alors que la synchronie neuronale, caractérisée par une activité rythmique simultanée entre neurones, constitue une théorie importante en neurosciences pour l’intégration des caractéristiques visuelles en représentations cohérentes, son rôle fonctionnel reste difficile à valider expérimentalement. Pour combler cette lacune, nous exploitons des modèles computationnels comme approche puissante pour étudier le rôle de la synchronie dans le traitement visuel.
Nous explorons en particulier des méthodes pour induire la synchronie neuronale dans des réseaux de neurones artificiels et évaluons les avantages computationnels qui en découlent. Nous utilisons des réseaux de neurones à valeurs complexes, car ils permettent une intégration biologiquement plausible des dynamiques temporelles dans les ANNs standards, où la synchronie peut être naturellement définie comme la similarité entre les phases des neurones.
Cette thèse présente trois modèles distincts qui induisent la synchronie selon des mécanismes différents. Le premier modèle, KomplexNet, intègre la dynamique de synchronisation de Kuramoto dans un réseau convolutionnel, permettant un alignement explicite des phases entre unités pour favoriser le groupement des caractéristiques. Le deuxième modèle, GASPnet, introduit un signal attentionnel global descendant qui module la synchronie de manière sélective à travers le réseau, démontrant comment l’attention peut orienter dynamiquement le regroupement et améliorer les représentations au niveau des objets. Le troisième modèle repose sur une architecture récurrente à valeurs complexes (CV-RNN), où la synchronie est maintenue dans le temps afin de supporter l’intégration et le suivi d’objets visuellement dynamiques. Chacun de ces modèles améliore la généralisation, la robustesse au bruit et aux occlusions, et adopte un comportement plus proche de celui de l’humain par rapport aux architectures traditionnelles.
En complément des évaluations computationnelles, ce travail examine la variance temporelle partagée (STV) -- un proxy pour la synchronie neuronale -- dans des enregistrements neuronaux biologiques du cortex temporal inférieur (IT) de primates. Ce proxy permet une comparaison directe de la synchronie neuronale entre systèmes biologiques et modèles artificiels. Les analyses empiriques révèlent que ce proxy encode les catégories d’objets et les comportements de manière indépendante du taux de décharge dans les systèmes biologiques, mais pas dans les modèles artificiels, soulignant la nécessité de travaux supplémentaires pour aligner les dynamiques temporelles des réseaux neuronaux artificiels avec celles du cerveau.
En conclusion, cette thèse fournit des preuves empiriques soutenant la synchronie neuronale comme un mécanisme fonctionnellement avantageux pour la fusion des attributs visuels, en montrant une amélioration de la représentation des objets, de la robustesse, et de la généralisation plus similaire que celle des humains dans les réseaux de neurones artificiels. En reliant modélisation computationnelle et données neuronales biologiques, elle fait progresser notre compréhension de la synchronie comme mécanisme fondamental de la perception visuelle.
|
This thesis seeks empirical evidence for temporal coordination --also called neural synchrony-- as a viable mechanism to perform visual binding. While neural synchrony, characterized by simultaneous rhythmic neuronal activity, is a prominent theory in neuroscience for integrating visual features into coherent object representations, its functional role remains challenging to validate experimentally. To address this gap, we leverage computational models to investigate synchrony’s role in visual processing.
Specifically, we explore methods for inducing neural synchrony in artificial neural networks and evaluate the computational advantages it confers. We utilize complex-valued representations, given their biologically plausible incorporation of temporal dynamics within standard ANNs, where synchrony is naturally represented by similarity in the phase values between neurons.
This thesis introduces three distinct models that induce synchrony through different mechanisms. The first model, KomplexNet, embeds Kuramoto synchronization dynamics within a convolutional neural network, allowing explicit phase alignment between units to drive feature grouping. The second model, GASPnet, introduces a global top-down attentional signal that modulates synchrony selectively across the network, demonstrating how attention can steer dynamic grouping and enhance object-level representations. The third model employs a recurrent complex-valued architecture (CV-RNN), where synchrony is maintained over time to support the integration and tracking of dynamically changing objects. Each of these models improves generalization, robustness to clutter and occlusion, and demonstrates more human-like behavior compared to traditional architectures.
In addition to computational evaluations, this work examines shared temporal variance (STV) -- a proxy for neural synchrony -- in biological neural recordings from primate inferior temporal (IT) cortex. This proxy enables direct comparisons between neural synchrony in biological systems and artificial models. Empirical analyses reveal that STV captures object category and behavioral information independently of firing rates in biological systems, but not in dynamic artificial models, highlighting the need for further work to align ANN temporal dynamics with those of the brain.
In conclusion, this thesis presents empirical evidence supporting neural synchrony as a functionally advantageous mechanism for visual binding, demonstrating improved object representation, robustness, and human-like generalization in artificial neural networks. Furthermore, by bridging computational modeling with biological neural data, it advances our understanding of synchrony as a foundational mechanism underlying visual perception.
|