Soutenance de thèse de Leandro FONTOURA CUPERTINO

Modélisation de la consommation d'énergie des systèmes informatiques et ces applications par des techniques d'apprentissage automatique


Titre anglais : Modeling the power consumption of computing systems and applications through Machine Learning techniques
Ecole Doctorale : EDMITT - Ecole Doctorale Mathématiques, Informatique et Télécommunications de Toulouse
Spécialité : RESEAUX, TELECOM, SYSTEME ET ARCHITECTURE
Etablissement : Université de Toulouse
Unité de recherche : UMR 5505 - IRIT : Institut de Recherche en Informatique de Toulouse
Direction de thèse : Jean-Marc PIERSON
Co-encadrement de thèse : Georges DA COSTA


Cette soutenance a eu lieu vendredi 17 juillet 2015 à 14h00
Adresse de la soutenance : IRIT - Université Toulouse 3 Paul Sabatier 118 Route de Narbonne F-31062 TOULOUSE CEDEX 9 - salle Salle des Thèses

devant le jury composé de :
Jean-Marc PIERSON   Professeur   Université de Toulouse III - Paul Sabatier   Directeur de thèse
Georges DA COSTA   Maître de Conferences   Université de Toulouse III - Paul Sabatier   Examinateur
Denis BARTHOU   Professeur   ENSEIRB   Rapporteur
Lionel SEINTURIER   Professeur   Université de Lille 1   Rapporteur
Amal SAYAH   MCF   Université de Toulouse III - Paul Sabatier   Examinateur
Jesus CARRETERO PéREZ   Professeur   Universidad Carlos III de Madrid   Examinateur


Résumé de la thèse en français :  

Le nombre des systèmes informatiques ne cesse d'augmenter au cours des dernières années. La popularité des centres de données les transforme en l'un des plus exigeants installations électriques. L'utilisation des centres de données est divisé en calcul haute performance (HPC) et des services Internet, ou les nuages. La vitesse de calcul est crucial dans les environnements HPC, tandis que sur les systèmes de Cloud elle peut varier en fonction de leurs accords de niveau de service. Certains centres de données proposent même des environnements hybrides, tous sont énergivores. Le présent ouvrage est une étude sur les modèles de puissance pour les systèmes informatiques. Ces modèles permettent une meilleure compréhension de la consommation d'énergie des ordinateurs, et peuvent être utilisés comme un premier pas vers de meilleures politiques de ces systèmes soit suivi et de gestion pour améliorer leurs économies d'énergie, ou pour rendre compte de l'énergie de facturer les utilisateurs finaux.
Les politiques de gestion et de contrôle de l'énergie sont soumis à de nombreuses restrictions. La plupart des algorithmes d'ordonnancement courant d'énergie utilisent des modèles électriques restreints qui ont un certain nombre de problèmes ouverts.
Des travaux antérieurs dans la modélisation de puissance des systèmes informatiques proposés l'utilisation des informations du système pour surveiller la consommation d'énergie des applications. Cependant, ces modèles sont soit trop spécifique pour un type d'application donné, ou ils manquent de précision. Ce rapport présente des techniques pour améliorer la précision des modèles de puissance en se attaquant aux problèmes depuis l'acquisition des mesures jusqu'à ce que la définition d'une charge de travail génériques pour permettre la création d'un modèle générique, ce est à dire un modèle qui peut être utilisé pour les charges de travail hétérogènes. Pour atteindre de tels modèles, l'utilisation de techniques d'apprentissage machine est proposé.
modèles d'apprentissage de la machine sont l'architecture adaptative et sont utilisés comme le noyau de cette recherche. Plus précisément, ce travail évalue l'utilisation des réseaux de neurones artificiels (RNA) et de régression linéaire (LR) que les techniques d'apprentissage machine pour effectuer la modélisation statistique non-linéaire.
Ces modèles sont créés grâce à une approche axée sur les données, permettant l'adaptation de leurs paramètres sur la base des informations recueillies lors de l'exécution des charges de travail synthétiques. L'utilisation de techniques d'apprentissage machine entend atteindre application- de haute précision et estimateurs de niveau système. La méthodologie proposée est indépendant de l'architecture et peut être facilement reproduit dans de nouveaux environnements.
Les résultats montrent que l'utilisation de réseaux de neurones artificiels permet la création d'estimateurs précis élevées. Cependant, il ne peut pas être appliqué au niveau processus en raison de contraintes de modélisation. Pour ce cas, les modèles prédéfinis peuvent être calibrés pour obtenir des résultats équitables.

 
Résumé de la thèse en anglais:  

The number of computing systems is continuously increasing during the last years. The popularity of data centers turned them into one of the most power demanding facilities. The use of data centers is divided into high performance computing (HPC) and Internet services, or Clouds. Computing speed is crucial in HPC environments, while on Cloud systems it may vary according to their service-level agreements. Some data centers even propose hybrid environments, all of them are energy hungry. The present work is a study on power models for computing systems. These models allow a better understanding of the energy consumption of computers, and can be used as a first step towards better monitoring and management policies of such systems either to enhance their energy savings, or to account the energy to charge end-users.
Energy management and control policies are subject to many limitations. Most energy-aware scheduling algorithms use restricted power models which have a number of open problems.
Previous works in power modeling of computing systems proposed the use of system information to monitor the power consumption of applications. However, these models are either too specific for a given kind of application, or they lack of accuracy. This report presents techniques to enhance the accuracy of power models by tackling the issues since the measurements acquisition until the definition of a generic workload to enable the creation of a generic model, i.e. a model that can be used for heterogeneous workloads. To achieve such models, the use of machine learning techniques is proposed.
Machine learning models are architecture adaptive and are used as the core of this research. More specifically, this work evaluates the use of artificial neural networks (ANN) and linear regression (LR) as machine learning techniques to perform non-linear statistical modeling.
Such models are created through a data-driven approach, enabling adaptation of their parameters based on the information collected while running synthetic workloads. The use of machine learning techniques intends to achieve high accuracy application- and system-level estimators. The proposed methodology is architecture independent and can be easily reproduced in new environments.
The results show that the use of artificial neural networks enables the creation of high accurate estimators. However, it cannot be applied at the process-level due to modeling constraints. For such case, predefined models can be calibrated to achieve fair results.

Mots clés en français :énergie, modélisation de la puissance, apprentissage automatique, suivi de l'application, la gestion de centre de données, environnement hétérogène,
Mots clés en anglais :   energy aware computing, power modeling, machine learning, application monitoring, data center management, heterogeneous environment,