Les procaryotes sont des organismes ubiquitaires vivant en communauté et possédant une extrême diversité métabolique en lien avec leur omniprésence. Ces caractéristiques ont poussé l'Homme à les identifier, les nommer, les classer et comprendre leur rôle au sein des communautés afin de modeler ces communautés et in fine leur environnement.
Pour contribuer à la compréhension du rôle fonctionnel des procaryotes, nous avons développé MACADAM : une base de données de voies métaboliques associées à une taxonomie centrée sur les procaryotes. L'objectif était de mettre à disposition de la communauté scientifique des données d'informations fonctionnelles sélectionnées sur leur qualité (qualité des génomes, qualité des annotations), en accès libre, interopérables et avec une structure simple permettant des mises à jour afin de bénéficier des dernières mise à jour des sources de données utilisé par MACADAM. MACADAM regroupe les Pathway/Genome DataBase (PGDBs) construites à partir de génome RefSeq répondant aux critères de qualité complete genome en utilisant le logiciel Pathway Tools et la base de données de voies métaboliques MetaCyc. Afin d’enrichir la base et d’augmenter la qualité des informations fonctionnelles dans MACADAM, MicroCyc, une collection de PGDBs manuellement curées par des experts, a été ajoutée et préférée en cas de redondance vis-à-vis des PGDBs issues de RefSeq. Enfin, les informations fonctionnelles sourcées à partir de la littérature contenues dans FAPROTAX et IJSEM phenotypic databases sont ajoutées. Construit à l'aide de technologies interopérables, sous un format téléchargeable et avec un code ouvert, MACADAM peut être intégré dans des outils qui nécessitent de lier une information taxonomique à une information fonctionnelle. Pour améliorer sa visibilité auprès de la communauté de microbiologistes, MACADAM est consultable en ligne (http://macadam.toulouse.inra.fr). Utilisant la taxonomie de la base de données NCBI Taxonomy, MACADAM permet de relier un taxon allant du phylum à l'espèce à une information fonctionnelle. Chaque voie métabolique est associée à deux scores de complétude (Pathway Score et Pathway Frequency Score). A chaque mise à jour, MACADAM intègre les nouvelles versions de RefSeq, du NCBI Taxonomy et de MicroCyc, permettant de suivre les corrections apportées à la taxonomie et d'inclure les informations disponibles pour les nouveaux génomes déposés.
Deux exemples d'utilisation de MACADAM et une comparaison avec une approche d'inférence à partir de lectures métagénomiques ont permis de discuter les points forts et les faiblesses (i) MACADAM et (ii) de l'inférence par une approche d'identification taxonomique préalable.
L'identification des individus au sein de la communauté procaryote bénéficie largement des avancées en technologie de séquençage et du raffinement des pipelines d’analyses bioinformatiques. L’analyse des lectures issues de séquençages métagénomiques aboutit à la reconstruction de génomes putatifs ou espèces métagénomiques. Dans ce cadre, nous nous sommes penchés sur la problématique de correction d’assignation taxonomique d’espèces métagénomiques en utilisant une approche par reconstruction d’un arbre phylogénétique d’une part et en utilisant un indice global de parenté génomique (ANI) d’autre part. Ce travail nous a permis de préciser le positionnement de neuf groupes d'espèces métagénomiques et mis en évidence des erreurs d'affiliation de génome de référence chez Megasphaera et Blautia Obeum et de confirmer le reclassement de Ruminococcus gauvreauii dans le genre Blautia. Pour limiter les erreurs et leur réplication il convient de veiller à la qualité de l'information contenue dans les bases de données. Enfin un effort de culture des organismes réputés incultivables permettrait d'accroître les connaissances et la diversité des organismes procaryotes. Ces efforts se répercuteront directement sur la qualité des informations fonctionnelles et la diversité des procaryotes de MACADAM. |
Prokaryotes are ubiquitous organisms living in communities, whose extreme metabolic diversity is correlated with their ubiquity. These characteristics have led Man to identify, name, classify and attempt to understand their role within communities, in order to shape these communities and, ultimately, their environment.
To contribute to a better understanding of the functional role of prokaryotes, we developed MACADAM: a database of metabolic pathways associated with a prokaryote-centric taxonomy. The aim is to provide the scientific community with open access to functional information data which has been selected for its genomic and annotation quality, which is interoperable and simply structured, thereby enabling updates to be made to the data gathered from data sources by MACADAM. MACADAM meets these criteria. MACADAM includes PGDBs (Pathway/Genome DataBases) assembled from RefSeq genomes meeting the complete genome quality criteria, by using the Pathway Tools software made available by MetaCyc, a metabolic pathway database. In order to enrich the database and increase the quality of functional information in MACADAM, a collection of expert-curated PGDBs named MicroCyc was added. Its PGDBs are favoured over those of RefSeq. Functional information sourced from the literature contained in FAPROTAX and IJSEM phenotypic databases was also added. Built using interoperable technologies, in a downloadable format and with open-source code, MACADAM can be integrated into tools requiring the pairing of functional and taxonomic information. To improve its visibility among the microbiology community, MACADAM is available online (http://macadam.toulouse.inra.fr). By using the taxonomy of the NCBI Taxonomy database, MACADAM makes it possible to link any taxon—ranging from phylum to species—to its functional information. Each metabolic pathway is associated with two completeness scores (a PS: Pathway Score and a PFS: Pathway Frequency Score). With each update, MACADAM integrates the new versions of RefSeq, NCBI Taxonomy and MicroCyc, allowing any corrections made to the taxonomy to be promptly amended and to add information on recently-submitted genomes. Two examples of ways in which to use MACADAM, and a comparison with an inference approach based on metagenomic readings allowed for a discussion of the strengths and weaknesses (i) of MACADAM and (ii) of inference by a prior taxonomic identification approach. The identification of individuals within the prokaryotic community benefits greatly from advances in sequencing technology and the refinement of bioinformatics analysis pipelines. The analysis of readings from metagenomic sequencing leads to the reconstruction of putative genomes and metagenomic species. In this context, we examined the problem of correcting taxonomic assignments of metagenomic species, by using a phylogenetic tree reconstruction approach on the one hand, and by using a global genomic kinship index (GNA) on the other hand. This work allowed us to clarify the positioning of nine groups of metagenomic species, and highlighted errors in reference genome affiliation in Megasphaera and Blautia Obeum. It also allowed us to confirm the reclassification of Ruminococcus gauvreauii into the genus Blautia. To limit errors and prevent their replication, it is important to ensure the quality of the information contained in the databases. In this context, the scientific community should have better knowledge of the rules of nomenclature and systematic methods. Further efforts should be made to advocate the merits of correcting database data. Finally, although metagenomics provides a better understanding of the microbial communities around us, an effort to cultivate organisms that are said to be uncultivable would increase the knowledge and diversity of prokaryotic organisms in databases. These efforts will have a direct impact on the quality of functional information and the coverage of MACADAM's prokaryotic diversity. |