Follow LCB

Science – L’intelligence artificielle et les modèles de langages protéiques pour déchiffrer les génomes viraux

L’intelligence artificielle et les modèles de langages protéiques pour déchiffrer les génomes viraux

Les bactériophages, virus des bactéries, jouent un rôle clé dans les écosystèmes microbiens et potentiellement dans la lutte contre les bactéries résistantes aux antibiotiques. Une étude publiée dans Nucleic Acids Research Genomics and Bioinformatics présente une approche innovante utilisant l’IA et des modèles de langage protéiques pour générer une empreinte digitale de 25 000 génomes viraux. Cette méthode permet d’organiser hiérarchiquement les virus, de révéler leurs liens évolutifs et fonctionnels, facilitant la découverte et la comparaison des virus.

Les bactériophages, acteurs clés du monde microbien

Les bactériophages, virus des bactéries, façonnent les communautés bactériennes et offrent des perspectives prometteuses pour le traitement des infections multirésistantes aux antibiotiques. La taxonomie des phages et leur classification sur la base de liens évolutifs représentent un défi de taille en raison de leur évolution rapide, de leurs échanges génétiques fréquents et du volume sans cesse croissant de nouveaux génomes provenant d’environnements très divers (e.g., le microbiote intestinal, les sols, les océans, etc.). 

HieVi : une approche innovante de génomique comparative basée sur l’Intelligence Artificielle

Dans un article publié dans la revue Nucleic Acids Research Genomics and Bioinformatics, des scientifiques  présentent HieVi (Hierarchical Viruses), une méthodologie innovante de génomique comparative des bactériophages basée sur l’utilisation de l’intelligence artificielle (IA), plus précisément des grands modèles de langage appliqués aux protéines. Ces derniers dérivent des modèles de langage humains qui ont donné naissance aux IA génératives connues du grand public telles que Le Chat (Mistral AI) ou ChatGPT (OpenAI). De la même façon que ces IA apprennent les langages humains à partir de gigantesques corpus de textes, un modèle de language protéique est capable d’apprendre le language des séquences protéiques à partir de centaines de millions de séquences. 

Ces modèles permettent de classer les protéines dans un espace sémantique pertinent en biologie, c’est-à-dire structural et fonctionnel. En faisant l’hypothèse simplificatrice qu’un bactériophage peut être assimilé à un sac de protéines dont les séquences sont codées dans le génome viral, les scientifiques ont utilisé dans leur étude le modèle de language protéique ESM-2 afin de générer de façon non-supervisée une « empreinte digitale » pour chaque bactériophage d’une base de données contenant environ 25 000 génomes complets de virus. 

Ils ont montré que cette empreinte encode des informations fonctionnelles et évolutives qui permettent d’organiser les génomes des phages de manière globalement conforme à la taxonomie existante mais qui réserve également quelques surprises qui ont été analysées. Cette approche facilite la découverte de nouvelles familles de virus et permet de classer un nouveau virus sans avoir recours à des approches fastidieuses de comparaisons de séquences. 

HieVi constitue ainsi une étape vers une organisation évolutive et facilement consultable des données génomiques des phages, utile pour affiner la taxonomie existante et explorer le paysage complexe et en constante expansion du monde viral.

Artificial Intelligence and Protein Language Models to Decipher Viral Genomes

Bacteriophages, viruses that infect bacteria, play a key role in microbial ecosystems and hold potential in the fight against antibiotic-resistant bacteria. A study published in Nucleic Acids Research Genomics and Bioinformatics presents an innovative approach using AI and protein language models to generate a fingerprint of 25,000 viral genomes.

Bacteriophages, key players in the microbial world

Bacteriophages shape bacterial communities and offer promising perspectives for treating multi-resistant bacterial infections. Their taxonomy and classification based on evolutionary links pose a major challenge because of their rapid evolution, frequent genetic exchanges, and the ever-growing volume of new genomes from very diverse environments (for example: the gut microbiome, soils, oceans, etc.).

HieVi: an innovative comparative genomics approach based on Artificial Intelligence

In an article published in the journal Nucleic Acids Research Genomics and Bioinformatics, scientists present HieVi (Hierarchical Viruses), an innovative comparative genomics methodology for bacteriophages based on the use of artificial intelligence (AI), more precisely large language models applied to proteins.

These are derived from human language models that gave rise to the generative AIs known to the general public such as the Chat (Mistral AI) or ChatGPT (OpenAI). In the same way that these AIs learn human languages from massive text corpora, a protein-language model is capable of learning the language of protein sequences from hundreds of millions of sequences.
These models allow proteins to be classified in a biologically relevant semantic space — that is, structural and functional.
By making the simplifying assumption that a bacteriophage can be likened to a bag of proteins whose sequences are encoded in the viral genome, the scientists used the protein language model ESM-2 to generate, in an unsupervised way, a “fingerprint” for each bacteriophage of a database containing about 25,000 full viral genomes.

They demonstrated that this fingerprint encodes functional and evolutionary information which allows the phage genomes to be organized in a way broadly consistent with existing taxonomy — but which also holds some surprises that were analysed.
This approach facilitates the discovery of new viral families and allows a new virus to be classified without relying on laborious sequence-comparison approaches.

HieVi thus constitutes a step towards an evolutionary and easily consultable organisation of phage genomic data, useful for refining existing taxonomy and exploring the complex and ever-expanding viral world.

 

 

Figure : HieVi Phage Atlas. Projection en deux dimensions de l’espace contenant les représentations vectorielles générées par HieVi pour 24 362 génomes complets de virus procaryotes. Cette projection montre leur regroupement selon des critères taxonomiques et donc des liens évolutifs. Chaque point représente un virus. Panneau A : Vue d’ensemble où les virus sont colorés selon leur royaume (le plus haut rang taxonomique de la classification de l’International Committee on Taxonomy of Viruses). Panneau B : Vue détaillée où les virus sont colorés selon leur genre (le plus bas rang taxonomique avant l’espèce). Les flèches indiquent quelques genres de bactériophages illustrant la cohérence des clusters issus de notre méthode d’analyse.

Figure : HieVi Phage Atlas.
Two-dimensional projection of the space containing the vector representations generated by HieVi for 24,362 complete genomes of prokaryotic viruses. This projection shows their grouping according to taxonomic criteria and, therefore, their evolutionary relationships. Each point represents a virus. Panel A : Overview in which viruses are colored according to their realm (the highest taxonomic rank in the classification of the International Committee on Taxonomy of Viruses). Panel B : Detailed view in which viruses are colored according to their genus (the lowest taxonomic rank before species). Arrows indicate several bacteriophage genera illustrating the consistency of the clusters produced by our analysis method.